ChatGPT는 왜 위키피디아 인용 높이고 있나

최근 들어 ChatGPT 인용 패턴에 눈에 띄는 변화가 감지되고 있습니다. 특히 위키피디아와 같은 검증되고 신뢰도 높은 출처의 인용 비중을 상당히 높여가는 중입니다. 불과 2~3달 전까지만 하더라도 브랜드가 포함되지 않은 질문에서 네이버나 티스토리 블로그의 인용 비중이 큰 편이었는데요. 이 흐름에 변화가 감지되고 있는 것이죠. 할루시네이션이 없는 '안전한' 답변 생성을 위한 것으로 보입니다.

아래는 GEO와 관련한 10개의 질문(브랜드 미포함)을 바탕으로 GEO 분석 및 실행플랫폼 '블루닷 인텔리전스'에서 수집한 데이터입니다. 수집한 기간은 다음과 같습니다.

  • 2월 1일~2월 10일
  • 3월 1일~3월 10일
  • 4월 1일~4월 10일
GEO 관련 질문에 대한 ChatGPT의 인용 출처 통계.

동일한 질문(쿼리)임에도 인용 출처의 순위는 상당한 변화를 보여주고 있습니다. 특히 4월 들어 가장 눈에 띄는 변화가 확인되는데요. 네이버 블로그의 급락과 위키피디아의 급상승입니다. 브랜드가 포함되지 않은 질문에 ChatGPT는 네이버 블로그를 적절하게 인용하는 경향을 보여왔습니다. (비록 차단됐지만) 하지만 4월 들어 네이버 블로그를 인용하는 비율이 급격하게 줄어들기 시작했습니다. 그리고 그 자리를 위키피디아가 비집고 들어갔습니다. 상당히 큰 폭으로 상승했기에 당황스러울 정도입니다.

또 하나 감지되는 특이 사항이 있습니다. 영문 출처의 인용 비중이 높아지고 있다는 것입니다. 비록 한국 지역 설정이 돼 있다 하더라도 신뢰할 수 있는 영문 출처 비중이 점차 높아지고 있는 것이죠. 4월에 techradar.com이 4위로 올라온 사례만 보셔도 짐작이 가능할 겁니다.

왜 ChatGPT는 위키피디아를 더 많이 인용할까

'안전 지향성' 때문이라고 생각합니다. 위 그래프를 보시면 알겠지만, 위키피디아 의존도(쏠림)가 이전과 달리 훨씬 높게 나타나고 있습니다. 3월까지만 해도 출처 다양성이 어느 정도 확보되는 흐름이었지만 4월 들어서는 특정 출처로의 '쏠림'이 강해지고 있습니다. 특히 위키피디아 의존도를 높이고 있죠. 이는 글로벌 차원에서 신뢰를 검증받은 사이트에서 더 많이 가져오려는 경향으로 해석을 할 수 있습니다.

구조화한 콘텐츠에 대한 선호도와도 연결돼 있습니다. 위키피디아는 어느 웹사이트보다 AI 크롤러가 읽기 편한 구조로 구성돼 있죠. 신뢰할 수 있는 출처라는 특성에 구조화된 콘텐츠 형태라는 장점이 이러한 결과를 낳고 있는 것이 아닐까 합니다.

한국에선, 네이버 블로그의 빈자리를 채우기 위한 대안적 방편일 수도 있습니다. 네이버 블로그는 GPTbot과 OAI-Searchbot을 차단하고 있습니다. 다만 즉시 검색 봇인 chatgpt-user 봇은 허용하고 있는데요. ChatGPT는 이러한 정책을 고수하는 네이버 블로그를 더이상 인용하려 하지 않는 것으로 보입니다. 적절히 비중을 낮추면서 대안을 찾아나서는 형국인데요. 이럴 때 팬아웃 쿼리(Query Fan-Out)를 통해 해외 출처를 인용하는 선택(영문 쿼리를 생성해서)을 내린 것으로 보입니다.

물론 산업군마다 결과는 다를 수밖에 없을 겁니다. 위키피디아만으로 답변을 모두 커버할 수가 없을 경우엔 다른 선택지를 인용 출처로 삼을 것입니다. 하지만 분명 변화는 감지되고 있습니다. 가끔은 인용된 출처와 생성된 콘텐츠가 무관한 경도 관찰됩니다. 형식상 출처를 덧붙이는 사례입니다.

블루닷 인텔리전스는 이러한 변화를 계속 감지하면서 GEO 전략을 업데이트 해 나갈 예정입니다. GEO 분석과 컨설팅을 필요로 하시면 연락주시기 바랍니다.