ChatPaper.aiChatPaper

LLM 시대의 위키피디아: 진화와 위험성

Wikipedia in the Era of LLMs: Evolution and Risks

March 4, 2025
저자: Siming Huang, Yuliang Xu, Mingmeng Geng, Yao Wan, Dongping Chen
cs.AI

초록

본 논문에서는 대규모 언어 모델(LLM)이 위키피디아에 미치는 영향을 심층적으로 분석하며, 기존 데이터를 통해 위키피디아의 진화를 살펴보고 시뮬레이션을 통해 잠재적 위험을 탐구합니다. 먼저, 페이지 뷰와 기사 내용을 분석하여 최근 위키피디아의 변화를 연구하고 LLM의 영향을 평가합니다. 이후, 기계 번역 및 검색 강화 생성(RAG)을 포함한 위키피디아 관련 다양한 자연어 처리(NLP) 작업에 LLM이 미치는 영향을 평가합니다. 연구 결과와 시뮬레이션 결과는 특정 카테고리에서 약 1%-2%의 영향을 미치며 위키피디아 기사가 LLM에 의해 영향을 받았음을 보여줍니다. 위키피디아를 기반으로 한 기계 번역 벤치마크가 LLM의 영향을 받는다면, 모델의 점수가 과도하게 상승할 수 있으며 모델 간 비교 결과도 변화할 수 있습니다. 또한, 지식 기반이 LLM 생성 콘텐츠로 오염될 경우 RAG의 효과가 감소할 수 있습니다. LLM이 아직 위키피디아의 언어와 지식 구조를 완전히 바꾸지는 않았지만, 우리의 실증적 연구 결과는 잠재적 미래 위험에 대한 신중한 고려가 필요함을 시사합니다.
English
In this paper, we present a thorough analysis of the impact of Large Language Models (LLMs) on Wikipedia, examining the evolution of Wikipedia through existing data and using simulations to explore potential risks. We begin by analyzing page views and article content to study Wikipedia's recent changes and assess the impact of LLMs. Subsequently, we evaluate how LLMs affect various Natural Language Processing (NLP) tasks related to Wikipedia, including machine translation and retrieval-augmented generation (RAG). Our findings and simulation results reveal that Wikipedia articles have been influenced by LLMs, with an impact of approximately 1%-2% in certain categories. If the machine translation benchmark based on Wikipedia is influenced by LLMs, the scores of the models may become inflated, and the comparative results among models might shift as well. Moreover, the effectiveness of RAG might decrease if the knowledge base becomes polluted by LLM-generated content. While LLMs have not yet fully changed Wikipedia's language and knowledge structures, we believe that our empirical findings signal the need for careful consideration of potential future risks.

Summary

AI-Generated Summary

PDF222March 5, 2025