티스토리 뷰

미국에 구글이 있다면 한국에는 네이버(Naver)가 있다. 구글보다 컨텐츠 중심인 네이버는 한 조사에 따르면 한국에 거주하는 성인 중 74% 이상은 네이버를 주 검색포털로 사용하고 있다고 한다. (기사링크) 이는 가히 압도적인 점유율이라고 할 수 있다. 

 

네이버가 제공하는 많은 컨텐츠/서비스들 중 가장 많은 이목을 끄는 것이 있다면 바로 "검색차트판"이 아닐까 싶다. 이 검색차트판에서는 현재 사람들이 많이 검색하고 있는 핫한 검색어들이 무엇이 있는지 순위를 매겨 목록으로 보여준다.

 

 

 

구글도 비슷한 서비스를 Google Trends 라는 별개의 사이트를 통해 제공하고 있긴 하지만, 네이버는 컴퓨터 웹브라우저로 접속하든 모바일 기기로 접속하든 메인화면에서 이 차트에 쉽게 접근하도록 디자인을 해놓았다. 최근에는 "최근 1시간", "최근 3시간" 처럼 순위에 반영할 시간을 사용자가 직접 지정할 수도 있고, 나이대 별 검색어 순위를 볼 수도 있도록 "10대", "20대", ..., "50대"도 선택할 수 있는 기능도 제공하고 있다. 

 

다음(Daum)도 이런 검색어 순위를 제공하긴 하지만 위에처럼 상세한 설정은 불가능하고 단순히 실시간 검색어 순위를 1위부터 10위까지 보여주는 것에서 그친다. (네이버는 1위부터 20위까지 제공한다.)

 

이렇게 재미난 컨텐츠들이 풍부한 네이버, 과연 그들의 기술력도 그만큼 좋을까? 

 

좀 도발적인 질문일 수 있겠지만, 수많은 화려한 컨텐츠들 뒤에 숨겨진 진짜 네이버의 모습은 어떤 것일까? 검색어차트에서 발견한 몇가지 사실들을 가지고 네이버의 실시간 검색어 처리 능력에 대해 약간의 의구심을 제기해 본다.  

(아래내용들은 네이버 데이터랩에서 제공하는 과거 급상승 검색어의 데이터를 기반으로 한다.) 

 

 
1. "한국 일본" ≠ "일본 한국"?
 
 

위 캡처는 네이버의 6월 5일 새벽 2시 32분의 급상승 검색어이다. 이날 2019 FIFA U-20 월드컵 경기로 한국과 일본의 경기가 있었다. 따라서 관련 키워드들이 순위에 많이 보인다.  

 

그런데 재밌게도 3위에는 "한국 일본", 10위에는 "일본 한국" 이 올라와 있다. 이것은 네이버 서버 컴퓨터가 이 둘을 다른 검색어로 분류해서 따로 카운트를 하고 있다는 얘기가 아닐까? 

 
개발자들이 일부러 이렇게 디자인을 한 것일까? 사용자들에게 지금 "한국 일본"이 "일본 한국" 보다 더 인기있는 검색어라는 것을 알려주기 위해? 그럴 수도 있지만 확률은 희박하리라 본다. 유의미한 정보라고 보기 어렵기 때문이다. 

 

사실, 이 둘을 같은 의미로 받아들여 둘의 카운트를 합산 했다면 1위 "김정민"을 제치고 1위가 되었을지도 모르는 일이다. 

 

이러한 예는 더 있다. 

 

 

5월 2일 새벽 4시경, 1위에는 "리버풀 바르셀로나" 3위에는 "바르셀로나 리버풀"이 위치하고 있다. 두 축구팀이 큰 경기를 앞두고 있어 올라온 검색어들인데 이 둘을 다르게 카운트해야 하나 싶다. 

 

만일 같은 키워드로 묶어 카운트 했다면 21위에 있던 다른 키워드가 20위로 올라 좀더 많은 정보를 사용자한테 줄 수 있지 않았을까? 

 

축구 관련 키워드에만 이런일이 있는 것일까? 

 
 

"그것 영화"≠"영화 그것"? "전현무 한혜진" ≠ "한혜진 전현무"? 설명이 필요없는 똑같은 경우들이다. 

 
 
2. "한국 일본" ≠ "대한민국 일본"?
 

다시 축구 얘기로 시작하겠다. 순위도 위에서 본 것을 그대로 가져오겠다. 

 
 

3위"한국 일본", 4위"대한민국 일본" 이 위치해 있다. 이것으로 미루어 짐작하건데 검색어 관리를 담당하고 있는 네이버 엔진은 "한국""대한민국"을 사실상 다른 대상으로 보고 있는게 아닌가 싶다. 의미적으로 같은데도 말이다. 

 

물론 앞에서 짚은 "A B""B A"로 같은 것으로 볼 수 있어야 한다는 문제보다 해결하기 더 어려운 문제일지 모르겠다. "한국""대한민국"은 문자적으로 다르기 때문이다. 그럼에도 이 두 단어가 의미적으로 같다는 것을 분류해 내는 일이 현대 AI기술로 보면 불가능 한 것도 아니다.

 

때문에 개인적인 느낌이지만, 네이버는 "이러한 분류를 할 수 있는 기술이 당장은 우리에게 없으니, 사용자가 알아서 판단하시라"는 듯 검색되는 모든 단어들을 문자적으로 다 다르게 카운트해서 리스트에 일단 올려주고 보는 것 같다. 

 

("대한민국 일본""한국 일본"을 같은 키워드로, 또 (위에서 언급했듯) 이것을 "일본 한국"과 같은 키워드로 카운트했다면 더 유의미한 정보를 제공할 수 있었을텐데 말이다.)

 

 

"u20 월드컵""U-20 월드컵"이 각각 13위14위에 ... 이것도 "u"와 "U", 그리고 "-" (대시) 가 있고 없고의 문자적 차이로 다르게 카운트 된 것일까?

 

 

2월 28일의 검색어 차트이다. "북미정상회담", "북미회담", "2차 북미정상회담", 결국 다 같은 키워드 아닌가? 

 

다시 말하지만, 이 세 키워드가 하나의 같은 키워드로 카운트 되었다면 21위, 22위로 밀려났던 키워드들이 순위 안으로 들어오게 되고 더 많은 정보를 사용자들이 얻을 수 있었을 것이다. 

 
 
무엇이 문제인가? 
 

위에서 언급했듯 이러한 한계들은 사용자들에게 보다 (1) 유의미한 정보들을 제공할 수 있는 기회를 놓지게 된다고 할 수 있다. 

 

또한 (2) 검색어 "순위" 자체에 대한 신뢰도도 낮아진다고 할 수 있겠다. 이미 언급했지만 3위 "한국 일본"과 10위 "일본 한국"이 다른 검색어라 하여 이것이 1위 "김정민" 이라는 키워드보다 낮은 관심을 받고있다고 생각할 수 있을까? 

 

또한 마지막 캡처에서 보듯 20위 "인도 파키스탄"이 정말 20위일까? 20위 밖에 "파키스탄 인도"가 존재하고 이 둘을 합치면 더 상위에 랭크가 될 수 있진 않았을까? 

 

 

마치며 ..

 

이제 검색엔진을 통해 사회의 생각과 관점의 흐름을 볼 수 있는 시대가 되었다. 앞으로 AI시대에는 이런 실시간 정보들을 가지고 사회의 안전과 번영을 위한 중요한 결정들도 자동화 할 수 있는 시대가 올 것이다. 하지만 위에 언급한 문제들을 그대로 안고 이런 시대를 맞이한다는 것은 상상할 수도 없을 것이다. 세상을 더 혼란스럽게 할 뿐이다. 

 

그럼에도 한국 기업들 중에서 네이버가 이런 문제들을 해결할 가장 큰 잠재력을 가진 기업이라고 생각한다. 그저 여기에 언급된 작은 문제들을 가볍게 여기지 않고 혁신적인 기술들로 성실하게 해결해 나가는 모습을 보여주길 바라며 이 글을 썼음을 밝힌다.

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함