본문 바로가기

.용어풀이

[IT용어] 검색 노출을 좌우하는 네이버 'C-RANK'

2015년 11월, 블로그 마케팅업계에서 블로그 대학살이란 말이 떠돌기 시작했다. 이 시기는 네이버가 블로그 검색 품질 향상을 선언하며 C-RANK 기반의 새로운 검색 알고리즘을 적용한 직후다. 이를 기점으로 조잡한 광고, 불법 사이트 연결, 알 수 없는 말로 도배된 속칭 '저질' 블로그 포스트가 엄청나게 줄어들었다. 필자 역시 한동안 네이버 블로그 검색을 하지 않았으나 점점 나아지는 수준을 보고 다시금 사용 빈도가 늘고 있는 중이다.


이처럼 구글, 야후, 빙, 네이버, 다음 같은 검색 사이트의 품질은 알고리즘에 의해 크게 좌우된다. 구글이 세계적인 검색 점유율을 가진 이유도 검색 본연의 기능에 충실한 엔진과 알고리즘 탓이다. 그렇다 보니 검색을 좀 안다는 사람들은 아직도 한국 내 구글 검색 점유율이 형편없음에도 불구하고 구글을 사용한다. (물론 국내 자료 검색 편의성은 네이버가 낫다.) 그러나 네이버도 이를 방관만 할 수는 없는 노릇이다. 국내 1위 검색 포털의 위치를 사수하기 위한 검색 품질 향상 노력이 2010년대에 들어 활발해졌다. 그 결과 가장 성공적인, 현재 진행형의 성과를 올린 결실이 바로 이번 포스팅에서 소개할 C-RANK다.



C-RANK가 나오기까지


네이버는 C-RANK를 다음과 같이 정의한다.


검색 랭킹의 정확도를 높이기 위해 사용되는 기술 중 문서 자체보다는 해당 문서의 출처인 블로그의 신뢰도를 평가하는 알고리즘이 있는데 네이버 검색에서는 이를 'C-Rank'라고 부릅니다. (출처 : 네이버 다이어리)


여기서 말하는 '신뢰도'란 네이버가 지금껏 꾸준히 강조해 온 최상의 가치다. 지금보다 앞선 2012년 네이버는 '리브라'라고 명명한 검색 알고리즘을 적용했던 바 있다. 당시에도 문서와 출처의 신뢰도를 중요시한다고 밝혔으나, 이 알고리즘은 오랜 수명을 갖지 못했다. 물론 검색 알고리즘 구조는 업체의 최고 기밀에 속하는 만큼 자세한 원리는 밝혀지지 않았다. 하지만 속칭 SEO(검색엔진최적화)라고 불리는 홍보성 블로그 양성 업체들의 무차별 공격엔 속수무책이었다. 


루머에 따르면 C-RANK가 적용되기 전까지 네이버 블로그 검색 결과 상단에 노출되는 방법은 비교적 간단했다. '약 45일 간 매일같이 블로그에 포스팅을 한다.' 끝이다. 포스팅 내용이 너무 저질적이거나 네이버 스팸 필터에 걸러질 수준의 글만 아니라면 리브라 알고리즘의 파훼법은 '꾸준함'에 있던 것으로 보인다. 신뢰도의 측정의 높은 점수를 꾸준히 블로깅 하는 사람에 뒀을 가능성이 크다는 말이다. 그렇다 보니 단순 노가다에 불과한 최적화 작업이 끝난 블로그는 광고주에게 비싼 값에 팔리고 광고성 포스팅을 남발하며 검색 품질을 하향 평준화하는데 일조하는 악순환이 반복돼온 것이다.


이에 대항해 네이버는 절치부심 끝에 새로운 신뢰도 측정 알고리즘 C-RANK를 내세웠고, 결과는 성공적이었다. 해당 알고리즘이 적용된 지 벌써 1년 6개월 정도가 흘렀음에도, 아직까지 C-RANK를 완전히 파훼했다는 최적화 업체는 나타나지 않고 있다. 과연 무엇 때문일까?



C-RANK가 따지는 신뢰도란


네이버가 사랑하는 '신뢰'는 C-RANK에서도 이어졌다. 다만 신뢰도를 측정하는 방식은 훨씬 치밀해졌다. 기존 리브라 알고리즘이 단순 포스팅 노가다로 파훼 됐다면 C-RANK는 노가다와 함께 '블로그 전문성'이 요구된다. 다음의 그림을 보자.



네이버 공식 검색 블로그에서 제시한 C-RANK의 신뢰도 측정 모델이다. 크게 <맥락> <내용> <연결성>의 세 가지 요소가 합쳐져 블로그의 신뢰도와 인기도를 파악한다고 돼 있다.


각각의 요소는 다음을 의미한다.


<맥락>

주제의 집중을 뜻함. 맛집이면 맛집, 건강이면 건강, 연예면 연예인 것으로, 하나의 카테고리의 글을 집중적으로 올리는가를 측정한다. 이를 통해 일차적으로 단순 홍보성 블로그를 거를 수 있다. 대가를 받고 맛집 홍보했다가, 아이 용품 홍보했다가, 등산 장비 홍보하는 것 같은 맥락 없는 블로그엔 사용자들이 원하는 전문성이 모자란다고 판단하기 때문이다.


<내용>

하나의 주제에만 집중한다고 신뢰도가 높아지는 건 아니다. 내용의 질도 중요하다. 매일같이 건강 관련한 정보를 포스팅하는 블로그라도, 전문가 의견이나 전문 서적, 혹은 경험담을 토대로 한 알찬 정보로 구성된 포스트와 소위 말하는 '카더라 통신'에 의존하거나 요즘 은어로 '뇌피셜(Brain Official)', 즉 혼자만의 주장과는 그 질이 다르기 때문이다.


<연결성>

가장 중요한 요소로 보인다. 사실 한가지 전문성을 띄고, '있어 보이는' 내용으로 구성된 컨텐츠라도 결과적으로 검색 소비자에게 필요한 정보를 주지 못했다면 그 가치는 상당 부분 하락한다. 따라서 최종적으로 소비자에게 좋은 평가를 받은 문서에 높은 점수를 줄 수밖에 없는데, 그 기준은 공유와 댓글, 체류 시간 등으로 어느 정도 가늠할 수 있다. 아무리 잘 쓰거나 포장한 글이라도 그 수준이 드러나면 독자들은 중간에 페이지를 닫아 버리거나(체류시간 하락), 댓글을 달고 공유를 하지 않는다. 반대로 잘 쓰인 글은 또 다른 글에 참고 자료로 링크되거나, 댓글을 통해 추가적인 내용을 나누게 되고, 유익한 정보성 글의 경우 SNS를 통해서도 많은 공유를 하게 된다. 기계가 판단하는 문서의 품질 수준은 한계가 있기 때문에 최종적으론 직접 보고 느끼는 사람의 반응을 핵심으로 계산하게 되는 것이다.


즉, 리브라에서 개편된 C-RANK를 파훼하기 위해선 전문성과 품질, 독자 반응까지 모두 잡아야 하는 조건이 성립된다. 이 정도만 하더라도 별다른 전략이 없던 소규모 광고 블로그는 '학살'이란 말에 어울리는 손쉬운 제물이 됐을 것이다. 실제로 몇몇 인터뷰를 보면 C-RANK 도입 이후 많은 SEO업체가 도산했다는 사실을 들을 수 있다. 


(사진 = 네이버 검색 공식 블로그)


C-RANK, 극복이냐 이용이냐


사실 C-RANK를 극복한다는 건 이를 '파훼'했다는 뜻이므로 극복에 성공한다면 필자는 아마 뒷골목에서 떼돈을 벌 수 있을지도 모른다. 그러나 정보의 선순환을 위해선 극복보다는 이용하는 법을 연구하는 게 더 알맞은 방향이다. 어쩌면, 궁극적 이용이 극복과도 같은 말일 테니까.


네이버가 C-RANK 도입 후 공식적인 루트를 통해 적극적으로 C-RANK의 구성 요소, 판단 근거를 알리는 모양을 보면, 단순히 어뷰징을 막는다기보단 사람들이 더욱 양질의 문서를 생산할 수 있도록 유도한다고 볼 수 있다. 그것이 홍보 문서에 해당되더라도 말이다. 광고도 광고 나름이다. 뭔가 알리고, 추천하더라도 확실한 근거와 장단점, 활용, 효율적 구매에 대한 질 좋은 정보를 동반한 컨텐츠라면 광고라는 사실을 깨닫더라도 별로 기분 나쁘지 않다. 네이버는 바로 이점을 노리고 있다.


물론 C-RANK에도 단점이 없는 것은 아니다. 신뢰도와 인기도를 측정해 좋은 문서를 판단한다고 하지만, 이 기준이란 것도 결국은 사람이 만든 것이므로 어느 정도 편향된 기준이 적용될 수밖에 없다. 이 근거로 C-RANK가 도입된 11월에 네이버에는 '새로운 기준대로 작성해온 블로그인데 왜 검색에서 제외가 됐느냐.'라는 많은 문의가 빗발쳤다. 정말 양심적인 블로거들에게는 날벼락이 아닐 수 없었을 것이다. 이들이 맥락, 내용, 연결성 모두를 충족한다고 자부하던 블로그들도 검색에서 제외됐단 사실은, 세 요소의 수준을 판단하는 C-RANK 만의 기준이 별도로 존재한다는 뜻이고, 이는 결국 알고리즘 설계자의 의도에 따랐을 수밖에 없다는 말이다. 또, 공개되지 않았을 많은 세부 요소들의 영향도 크리라 생각된다. 필요 이상으로 강력한 '히든 필터'들이 선의의 피해자를 만드는 것이다. 


그 밖의 부작용으로, 촘촘한 알고리즘망은 블로그 진입 장벽을 높이기도 한다. 원래 블로그란 누구나 손쉽게 자신의 의견을 표출하거나 일상을 기록하고 공유할 수 있는 공간이다. 흔히 웹 2.0으로 대변되는 '누구나 생산자가 되는' 세상의 상징적 심볼이 바로 블로그였다. 이렇게 생산된 정보도 정보로서 가치를 얻기 위해 검색 노출이 필수적인데, 이런 강력한 알고리즘은 글쓰기에 서툴거나, 자신도 모른 채 의도치 않게 신뢰도 판단 요소를 거스른 블로그에겐 꽤나 가혹한 장벽으로 작용할 여지가 있다. 인기도에 치중하다 보니 소소한 내용의 일상형 블로그의 순위는 하락하고, 다양한 주제를 다룰수록 그 전문성을 인정받는 어려운 탓에 C-RANK를 잘 알고, 이에 충실한 사람들만이 상위 노출의 혜택을 받을 수 있는 구조가 된다는 말이다.


이렇게 아쉬운 점들이 없지 않지만, 현재로썬 최선에 가깝다. 적어도 C-RANK의 활약 덕에 많은 사람들이 네이버 검색에 대한 신뢰를 조금이나마 되찾았기 때문이다. 네이버가 국내 검색 노출에서 절대적인 위치를 차지하고 있는 한, 이를 의식하는 블로거라면 하나를 쓰더라도 고퀄리티 문서 생산을 염두에 둘 수밖에 없다. 네이버의 말대로라면 평범한 문서 몇 개보다 한 건의 가치 있는 문서가 검색을 좌우한다니 말이다. 다만 생산자들은 이렇듯 반강제적으로 네이버가 원하는 기준에 따를 수밖에 없는 만큼, 네이버 역시 선의의 알고리즘 피해자를 적극 구제하고, 필터링에만 의존하지 않는 클린 컨텐츠(Clean-Contents) 활동에 더욱 적극적으로 나서야 할 것이다. 


C-RANK는 조만간 대한민국 간판 정보통인 '네이버 뉴스' 서비스에도 적용될 계획이다.



<참고>

http://blog.naver.com/naver_diary/150153092435 (네이버 다이어리)

http://blog.naver.com/naver_search/220774795442 (네이버 검색 공식 블로그)

http://www.bloter.net/archives/267330 (2016, 블로터)

http://www.ddaily.co.kr/news/article.html?no=154924 (2017, 디지털데일리)