1. 세그멘테이션 2
빅데이터라는 이야기를 들어보셨나요?
요즘엔 이곳을 봐도 빅데이터 저곳을 봐도 빅데이터 라는 말이 아주 흔하게 나오고 있습니다. 물론 AI와 함께 콜라보를 하는 경우도 아주 많죠.
최근에는 AI의 돌풍을 일으킨 알파고의 영향으로 인해서 많은 사람들이 인공지능과 Deep Learning에 대해서 관심을 갖게 되었고 이러한 Deep Learning이 어쩌면 인간을 대신할 수 있지 않을까 하는 기대감과 불안감을 동시에 느끼게 되었습니다.(물론 그런일은 없어야 하겠지만)
이런 와중에 어쩌면 AI의 발전에 슬그머니 편승해서 빅데이터가 뜨고 있는 것인지 아니면 빅데이터가 뜨고 있는 와중에 AI가 발을 걸고 있는 건지는 모르지만 두가지의 이슈가 큰 파장을 일으키고 있는 것은 사실입니다.
이런 와중에 마케팅을 하는 사람의 입장에서 지금까지 발견되고 사용되었던 많은 세그먼테이션 방법의 대안으로 빅데이터가 제안되는 것을 보고 궁금한 부분이 생겼습니다.
"그래... 이 빅데이터가 좋다고 하니까 물론 좋은 것이긴 하겠지만.. 도대체 이 데이터는 어디에서 온거야? 그리고 이 데이터가 정말 믿을만은 한거야?" 원래 직업상 의심병을 달고 살기는 하지만 이 빅데이터는 앞으로 마케팅의 모든 부분에 영향을 미치고 또 그 영향에 따라서 현재의 마케팅활동이 모두 변화될 수 도 있는 엄청난 놈임에 틀림없으니 잘 알아볼 필요성이 있다는 생각과 강력한 사명감도 들었습니다.
다음은 펜타 시큐리티에서 기업블로그에 올린 글인데, 독자분들의 이해를 위해서 전재하여 가져왔습니다. 잘 정리되어 있으니 기본적인 내용을 이해하시는데에는 충분하실 듯 합니다.
빅데이터의 개념과 처리 기술
스마트 시대로 접어들면서 현대인이 컴퓨터와 스마트폰을 사용함에 따라 거대한 양의 정보가 생성되고 확산 속도도 갈수록 빨라지고 있다. 이러한 ‘빅데이터(Big Data환경의 구축은 인터넷을 기반으로 경제활동이 이루어지는 디지털 경제 시대의 도래를 이끌어냈다.
빅데이터란 과거 아날로그 환경에서 생성되던 데이터에 비하면 그 규모가 방대하고, 생성 주기가 짧으며 수치 데이터뿐만 아니라 문자와 영상 데이터를 모두 포함하는 형태의 대규모 데이터를 말한다.
PC와 인터넷, 모바일 기기의 이용이 사람들에게 생활화되면서 그들이 도처에 남긴 발자국(데이터)은 기하급수적으로 증가하고 있다. 빅데이터를 쉽게 이해하기 위해 실생활에 적용하여 예시를 들어보겠다. 과거 아날로그 환경에서 영희는 옷을 사기 위해 대중교통을 타고 나가 상점에 직접 갔다. 이 때 영희의 데이터가 기록되었고, 그 데이터의 양은 지극히 적었다. 하지만 오늘날 영희는 옷을 사기 위해 굳이 외출을 하지 않아도 된다. 사고 싶은 옷을 인터넷으로 검색한 다음, 인터넷 쇼핑몰에 접속하여 구매를 하면 되기 때문이다. 이때 옷을 구매 하지 않았더라도 영희가 구경하였던 쇼핑 내역들이 자동적으로 데이터에 저장된다. 영희가 어떤 옷에 관심이 있는지, 얼마 동안 특정 쇼핑몰에 머물렀는지를 알 수 있다. 이렇게 영희가 남긴 ‘디지털 발자국’은 쇼핑뿐만이 아니라 은행, 증권과 같은 금융거래, 교육, 여가활동, 자료 검색과 이메일 등의 온라인 서비스에 모두 적용 가능하다.
온라인 환경뿐만 아니라 주요 도로와 공공건물, 심지어 아파트 엘리베이터 안에까지 설치된 CCTV가 촬영하고 있는 영상 정보의 양도 상상을 초월할 정도로 엄청나다. 그야말로 개인의 일거수일투족이 하나도 빠짐없이 데이터로 저장되고 있는 것이다.
오늘날 도래한 빅데이터 시대에는 단순히 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜네트워크서비스(SNS, Social Network Service), 모바일 환경에서 방대한 양으로 생성되는 웹 문서, 이메일, 소셜 데이터(소셜 네트워크 서비스 텍스트 데이터, 유튜브 비디오 데이터) 등의 비정형 빅데이터를 효과적으로 분석하는 것이 무엇보다 중요해졌다.
그렇다면 정확하게 빅데이터의 분석이란 무엇일까? 빅데이터 분석이란 소셜 빅데이터, 실시간 사물지능통신(M2M:Machine to Machine) 센서 데이터, 기업 고객관계 데이터 등 도처에 존재하는 다양한 성격의 빅데이터를 효과적으로 분석하는 것을 말한다. 빅데이터 분석을 위해서는 기본적으로 하둡, NoSQL 등의 빅데이터 분석 인프라 기술이 필요하고, 그 위에 통계처리, 데이터 마이닝, 텍스트 마이닝, 오피니언 마이닝, 그래프 마이닝 등 다양한 분석 방법 및 기계학습, 인공지능 기법을 적용해야 한다. 이 중 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석 기술이 비정형 텍스트 빅데이터에 내재한 가치를 효과적으로 발굴하기 때문에 최근 큰 주목을 받고 있다.
빅데이터를 활용하는 국내외 기업들
시대가 시대인 만큼 기업들도 빅데이터를 활용하여 자신들을 홍보하고 이익을 창출한다. 빅데이터를 시행하는 대표적인 기업에는 구글, 아마존, 넷플릭스, 라쿠텐, 왓챠 등이 있다. 기업의 빅데이터 활용 사례의 선두 주자는 구글이다. 구글(Google)은 데이터 양이 많으면 많을수록 얻을 수 있는 정보의 품질이 좋아진다는 것을 인터넷 검색에서 실천하고 있는 기업이다. 접근 가능한 모든 웹 페이지를 탐색해서 제목과 내용이 검색어와 얼마나 밀접한 관계를 갖는지를 측정해 지수로 환산한다. 온라인 쇼핑몰의 선구자인 아마존(Amazon)도 빅데이터 활용의 역사가 깊다. 아마존은 고객의 도서 구매 데이터를 분석해 특정 책을 구매한 사람이 추가로 구매할 것으로 예상되는 도서를 추천하는 시스템을 개발했다. 고객이 읽을 것으로 예상되는 책을 추천하면서 할인 쿠폰을 지급하는 전형적인 데이터 분석에 기반한 마케팅 방법을 활용하고 있다. 현재는 하드웨어를 빌려주는 클라우드(cloud)서비스를 제공하고 있으며 비정형 빅데이터 처리를 위한 데이터베이스를 새로 개발하는 등 빅데이터 관련 기업의 입지를 강화하고 있다. 일본의 최대 전자상거래 업체인 라쿠텐(樂天)은 슈퍼 데이터베이스(DB)를 구축하여 이를 기반으로 다양한 마케팅 활동을 벌여 사람들에게 많은 편의를 제공한다. 슈퍼 데이터베이스는 회원의 기본 정보와 구매 정보, 서비스 예약 정보가 통합되어 있다. 미디어 콘텐츠 유통기업인 넷플릭스(Netflix)는 이용자의 영화 대여 목록에 기초해서 새로운 영화를 추천해주는 시네매치(Cinematch) 시스템을 개발했다. 넷플릭스와 유사한 시스템으로 운영되는 국내의 빅데이터 기업에는 왓챠(Watcha)가 있다. 자체 개발 추천 엔진인 핀셋(Pincette)으로 빅데이터를 활용하여 이용객의 취향을 분석하고 개인의 취향에 맞는 영화를 추천해주는 서비스이다. 왓챠에 축적된 별점 평가수는 현재 2억개를 돌파, 네이버가 근 10년간 축적한 별점 평가의 30배를 웃도는 국내 1위의 별점 평가 데이터를 갖고 있다. 이렇게 개발된 기업들의 시스템은 사람들의 실생활에 편의를 제공함으로써 밀접하게 도움을 준다.
그렇다면 빅데이터를 사용하면서 생기는 긍정적인 효과는 무엇일지 보다 구체적인 예시를 통해 알아보도록 하자! 긍정적 효과를 크게 개인, 기업, 국가의 이득이라는 세 가지 관점으로 분류하여 살펴보았다.
빅데이터가 주는 이점 – 개인편
빅데이터로 일반인들이 제공받는 이점의 대표적인 사례로는 서울시의 심야 버스인 ‘올빼미 버스’가 있다. 서울시는 공공데이터와 KT에서 제공한 심야시간 통화 기지국 위치와 청구지 주소 데이터 통계치 30억 건을 분석하여 심야버스 노선을 선정하여 운영하였고 그 결과는 대성공이었다. 올빼미 버스는 늦은 시각, 택시의 승차 거부로 귀가에 어려움을 겪는 사람들이 많이 이용하면서 시민들의 귀가 걱정을 덜어주고 있다. 또 다른 사례로는 검색엔진이 있다. 개인이 검색한 데이터에 따라 제품을 맞춤 추천해주거나 관련된 정보를 제공하여 이용자의 검색 횟수를 줄여주고 만족감을 높여준다.
빅데이터가주는 이점 – 기업편
이익을 추구하는 기업에게 있어서 빅데이터는 이익을 극대화 시켜주는 고마운 존재이다. '날씨에 따라 고객의 입맛이 변화한다'는 사실을 이용하여 국내 대표 베이커리 전문 매장인 파리바게뜨는 5년간 169개 지역의 일별 매출과 기상자료를 통계기법으로 지수화한 '날씨 판매지수'를 활용하여 2012년 6월부터 날씨 경영 마케팅을 실시하였다. 이 덕분에 파리바게뜨는 판매량을 예측하고 주문량을 조절할 수 있어 찬스로스 (Chance Loss, 판매할 제품이 없어 발생하는 손실)를 방지하고 재고 부담을 줄임으로써 영업이익이 증가하였다.
빅데이터가 주는 이점 – 국가편
2016 올림픽 개최지인 브라질의 리우데자네이루는 빅데이터를 활용한 지능형운영센터를 통해 도시 관리와 긴급 대응 시스템을 구축해두었다. 교통, 전력, 홍수, 산사태 등의 자연재해와 수자원 등을 통합 관리할 수 있는 체계이다. 이외에도 지난 2014 월드컵 개최지이자 강력한 우승 후보국이었던 브라질을 제치고 우승을 차지한 독일의 비밀병기는 다름 아닌 빅데이터였다. 독일은 비즈니스 솔루션을 제공하는 자국의 세계적인 IT기업인 SAP와 협력하였다. SAP가 개발한 플랫폼은 매 분마다 1만 2천여 개의 데이터가 생성하며 센서데이터, 대용량데이터를 분석하는 능력을 갖추고 있으며 선수들 개개인의 능력치 (운동량, 심박수, 방향감각, 슈팅동작, 순간속도)와 같은 구체적인 데이터를 분석하였다. 이렇게 처리된 빅데이터를 기반으로 독일은 탄탄한 전략을 짜서 승리를 거머쥐게 된 것이다.
빅데이터로 인한 피해 사례
일반인들에게는 개인맞춤 서비스를 제공해주고, 기업에게는 수익을 극대화 시켜주고, 국가에게는 국가 경쟁력을 향상시켜 주는 빅데이터, 가치 창출이라는 커다란 이점에 가려져있던 문제점을 파헤쳐보고자 한다. 우선 가장 문제시되는 것이 바로 사생활 침해다. 개인이 인터넷에 검색했던 내역, SNS에 올린 글과 사진, 핸드폰으로 주고 받았던 대화들이 모두 데이터 베이스에 남아 이 데이터들을 조합하면 새로운 정보로 재생성할 수 있다. 이렇게 수집된 비식별화된 데이터들이 몇 번의 과정을 거쳐 분석∙처리되면 실제 개인을 식별할 수 있는 정보로 재탄생하는 셈이다. 일례로 미국의 한 대형 소매 유통업체가 자신의 고객이 임산부용 속옷과 튼살 방지 크림 등을 구매했던 내역을 바탕으로 고객의 임신 사실을 알아내어 고객에게 임산부용 쿠폰을 보낸 사례가 있다. 문제는 이 고객이 임신 사실을 부모에게 숨기고 있던 미성년자였고 이 때문에 부모보다도 먼저 임신 사실을 안 유통업체가 본의 아니게 여고생의 프라이버시를 침해한 대표적인 사례가 되었다. 이처럼 비식별화된 데이터도 결국 수집과 분석의 과정을 거치면 개인을 식별할 수 있는 자료가 된다는 점이 사람들의 삶을 윤택하게 바꿔주는 빅데이터의 이면에 숨었던 무서운 문제점으로 작용한다.
빅데이터의 위험성, 빅브라더(Big Brother)
위의 여고생의 사례는 단순히 기업이 고객에게 맞는 맞춤형 서비스를 제공하다가 발생한 사건이었다면 다음의 사례는 국가가 의도적으로 국민을 감시하는 사례이다. 2013년 6월 미국에서 충격적인 사실이 폭로되었다. 국가안보국(NSA)이 국민들의 수백 만 건의 통화 기록과 인터넷 데이터 등의 개인정보를 무차별적으로 수집하고 감시하고 있다는 내용이었다. 이 사실을 폭로한 사람은 전 미국 중앙정보국(CIA) 직원이자 미 국가안보국(NSA)에서 근무한 에드워드 스노든이다. 스노든이 공개한 기밀 문서에 따르면 NSA는 2007년부터 개인전자정보 수집프로그램 프리즘(PRISM)을 통해 미국 주요 인터넷 기업 9곳의 서버에 접속하거나, 해저 광케이블에서 전자신호를 가로채는 수법 등으로 일반 시민들의 개인정보를 대규모로 수집했다. 프리즘에 관련된 기업들로는 전세계적으로 수많은 유저를 갖고 있는 페이스북, 유튜브, 핫메일, 야후 등이 있었다. 그러다 NSA가 앙겔라 메르켈 독일 총리를 비롯해 지우마 호세프 브라질 대통령, 엔리케 페냐 니에토 멕시코 대통령 등 최소 35개국 정상급의 통화를 도청했다는 사실이 추가로 보도되면서 도청 파문은 점점 확산됐다. 또 2013년 12월에는 NSA가 우리나라를 비롯해 우방국까지도 주요 정보수집 대상국으로 지정해 도∙감청 해왔다는 사실이 알려지면서 충격을 더해주었다.
지난 27일 개봉한 맷 데이먼 주연의 <제이슨 본>은 스노든 사태 이후의 사회상을 투영한 영화이다. 영화 속에서는 개인의 정보를 아무렇지 않게 수집하고 시위가 벌어지는 장소에서 퍼져나가는 SNS 글들을 차단하라는 등의 정보기관 요원들의 모습을 통해서 디지털 사회의 전자 감시를 당연시하게 여기는 현대사회의 어두운 면을 담았다. 단순히 인터넷을 이용해 정보를 수집하던 과거와 달리 현재는 활발한 SNS를 통해 수많은 데이터들이 초단위로 올라오고 있다. 영화 속에서는 SNS로 개인을 감시하는 CIA의 아이언 핸드 프로그램을 주요 소재로 삼아 현대상을 보여주고 있다. 영화 속의 이야기는 결코 비현실적인 이야기가 아니었다. 한국에서도 2014년 이런 영화같은 일이 벌어졌기 때문이다. 수사 기관의 정당한 법 집행이란 이유로 카카오톡이 감청을 허용해준 것이다. 카카오톡이 국정원의 사이버 검열에 협조를 하면서 생긴 불신으로 국민들이 러시아의 메신저인 텔레그램으로 사이버 망명을 한 웃지 못할 사회적 현상이 발생하기도 했었다.
그리고 올해 테러방지법 통과 이후 또 다시 텔레그램 망명이 되풀이되었다. 테러방지법이란 2016년 3월 2일 국회 본회의를 통과한 법안으로 테러 방지를 위해 정부가 국가정보원에 정보수집 및 추적권을 부여하고 테러 인물을 감시∙관리할 수 있는 법적 근거를 담고 있다. 국정원은 ▲개인정보(사상·신념·건강 등 민감정보 포함)·위치정보·통신이용 정보 수집 ▲출입국·금융거래 기록 추적 조회 ▲금융 거래 정지 등을 요청할 수 있게 된다. 카카오톡은 여론이 들끓기 시작하기 전까지는 사이버 검열에 대한 문제의식을 전혀 느끼지 못하였고 이러한 기업의 모습은 빅데이터를 활용하면서도 개인의 프라이버시를 중요하게 여겨 FBI의 협조를 거부했던 미국 기업 애플의 모습과는 대조적이다.
빅브라더에 대한 사람들의 생각
이러한 빅브라더에 대한 사람들의 생각은 어떠한지 7월 29일부터 31일까지 3일간 75명을 대상으로 인터넷 설문조사를 실시하였다. 그 결과는 다음과 같다. 우선 빅브라더의 기반이 되는 빅데이터에 대해 들어본 적이 있는 사람은 69%로 과반수를 넘었다. 그러나 본인이 알고 있는 빅데이터 시행 기업을 적는 란에는 네이버나 구글 등의 대표적인 기업들뿐이거나 잘 모르는 사람들도 적지 않았다. 기업의 대다수가 빅데이터 기술을 이용하고 있는 것이 실상이지만 그에 비해 이를 일상에서 체감하는 사람들은 현저하게 적다는 것을 알 수 있었다. 개인정보 수집에 대한 불안감을 느끼는지에 대한 항목에서는 73%가 '예'라고 응답하였고 스노든 사태, 카카오톡 감청 사태 등의 빅브라더와 관련된 사회 이슈를 알고 있는 사람들은 49%였으나 직접적으로 빅브라더를 알고 있는지의 여부를 물었을 때는 29%만이 '예'라고 응답하는 아이러니한 결과가 나왔다. 이는 곧 사람들이 빅브라더를 빅브라더로 인지하지 못하고 있다는 것으로 분석하였다. 빅브라더에 대한 사람들의 생각으로는 'IT 기술은 편리함을 주어야지, 그것을 넘어서서 기업이 개개인의 정보를 가공하고 위협하는 선에서까지의 편리함은 결국 몰락을 가져올 것이다', '신문 사설에서 읽은 적이 있을 뿐, 관심 있게 생각해 본적은 없다', '지배라는 개념이 있다는 거 자체가 무섭다', '잘 모르겠다' 등의 다양한 의견이 나왔다.
대한민국 빅데이터 산업의 현주소
미래학자 앨빈 토플러는 “정보를 가진 자가 권력을 가진 자이다” 라는 말을 남겼다. 이 말이 과연 사실일지 우리는 빅데이터를 주로 활용하여 수익을 창출하고 있는 유명 기업들과의 인터뷰를 시도해보았다. 빅데이터를 구체적으로 어떠한 방식으로 보호하고 관리하는지와 빅데이터를 다루는 주체로서 빅브라더의 위험성에 대해 어떻게 생각하는지가 주요 질문이었다. 그러나 회사 정책 상 답변하기 어렵다는 한 통의 메일만을 받았을 뿐 다른 기업들은 심지어 메일에 답장조차 하지 않았다. 빅데이터를 다루는 주체가 빅데이터를 제공해주는 이용자의 질문에 답변을 피하는 모습을 보고 실망하지 않을 수 없었다. 너도나도 빅데이터를 활용한 정책을 시행하고 개인정보유출 사고가 끊이질 않는 현시점에서 국가와 기업은 빅데이터를 안전하고 투명하게 다루는 전략을 제시하고 이를 실천해야 한다. 정보를 가진 자를 감찰하는 기제가 생겨 지배가 없는 권력을 가진 세상이 와야 한다. 빅데이터를 수집하는 자와 제공하는 자 사이에 활발한 소통의 창구가 열리는 시대가 하루 빨리 오길 기대한다.
출처: http://blog.pentasecurity.com/381 [펜타시큐리티 공식 블로그]
여기까지 읽으신 후 또 이야기가 계속되면 너무 긴듯해서 다음편으로 넘겨서 계속 이야기 해는것이 좋겠습니다. 그럼 다음편에 계속.
야갤이 윤태 작가님의 더 많은 글 '보러가기'