LLM時代におけるWikipedia:進化とリスク
Wikipedia in the Era of LLMs: Evolution and Risks
March 4, 2025
著者: Siming Huang, Yuliang Xu, Mingmeng Geng, Yao Wan, Dongping Chen
cs.AI
要旨
本論文では、大規模言語モデル(LLM)がWikipediaに与える影響について詳細な分析を行い、既存のデータを通じてWikipediaの進化を検証し、シミュレーションを用いて潜在的なリスクを探ります。まず、ページビューと記事内容を分析し、Wikipediaの最近の変化を研究し、LLMの影響を評価します。続いて、機械翻訳や検索拡張生成(RAG)など、Wikipediaに関連するさまざまな自然言語処理(NLP)タスクにLLMがどのように影響を与えるかを評価します。我々の調査結果とシミュレーション結果から、Wikipediaの記事はLLMの影響を受けており、特定のカテゴリーでは約1%~2%の影響が見られることが明らかになりました。Wikipediaに基づく機械翻訳のベンチマークがLLMの影響を受ける場合、モデルのスコアが過大評価される可能性があり、モデル間の比較結果も変化する可能性があります。さらに、知識ベースがLLM生成コンテンツによって汚染されると、RAGの有効性が低下する可能性があります。LLMはまだWikipediaの言語と知識構造を完全には変えていませんが、我々の実証的発見は、将来の潜在的なリスクを慎重に考慮する必要性を示唆していると考えます。
English
In this paper, we present a thorough analysis of the impact of Large Language
Models (LLMs) on Wikipedia, examining the evolution of Wikipedia through
existing data and using simulations to explore potential risks. We begin by
analyzing page views and article content to study Wikipedia's recent changes
and assess the impact of LLMs. Subsequently, we evaluate how LLMs affect
various Natural Language Processing (NLP) tasks related to Wikipedia, including
machine translation and retrieval-augmented generation (RAG). Our findings and
simulation results reveal that Wikipedia articles have been influenced by LLMs,
with an impact of approximately 1%-2% in certain categories. If the machine
translation benchmark based on Wikipedia is influenced by LLMs, the scores of
the models may become inflated, and the comparative results among models might
shift as well. Moreover, the effectiveness of RAG might decrease if the
knowledge base becomes polluted by LLM-generated content. While LLMs have not
yet fully changed Wikipedia's language and knowledge structures, we believe
that our empirical findings signal the need for careful consideration of
potential future risks.Summary
AI-Generated Summary