大規模言語モデルを用いたWikipediaにおけるコーパスレベルの知識不整合の検出
Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models
September 27, 2025
著者: Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam
cs.AI
要旨
Wikipediaは世界最大のオープン知識コーパスであり、大規模言語モデル(LLM)や検索拡張生成(RAG)システムのトレーニングに広く利用される重要なリソースです。その正確性を確保することは極めて重要です。しかし、Wikipediaはどれほど正確であり、どのように改善できるのでしょうか?
本稿では、事実誤りの特定のタイプである不整合に焦点を当て、コーパスレベルの不整合検出タスクを導入します。私たちは、LLMの推論と検索を組み合わせて、人間によるレビューのための文脈的証拠とともに潜在的な不整合な主張を浮かび上がらせるエージェントシステム「CLAIRE」を提案します。経験豊富なWikipedia編集者を対象としたユーザー調査では、87.5%がCLAIREを使用することでより高い自信を報告し、参加者は同じ時間内に64.7%多くの不整合を特定しました。
CLAIREと人間のアノテーションを組み合わせることで、実際のWikipediaの不整合を対象とした初のベンチマーク「WIKICOLLIDE」を提供します。CLAIRE支援分析を用いたランダムサンプリングにより、英語版Wikipediaの事実の少なくとも3.3%が他の事実と矛盾しており、その不整合がFEVEROUSの7.3%、AmbigQAの4.0%の例に波及していることがわかりました。このデータセットで強力なベースラインをベンチマークした結果、大きな改善余地が示されました:最も優れた完全自動化システムのAUROCはわずか75.1%でした。
私たちの結果は、矛盾がWikipediaの測定可能な構成要素であり、CLAIREのようなLLMベースのシステムが、編集者が大規模に知識の一貫性を改善するための実用的なツールを提供できることを示しています。
English
Wikipedia is the largest open knowledge corpus, widely used worldwide and
serving as a key resource for training large language models (LLMs) and
retrieval-augmented generation (RAG) systems. Ensuring its accuracy is
therefore critical. But how accurate is Wikipedia, and how can we improve it?
We focus on inconsistencies, a specific type of factual inaccuracy, and
introduce the task of corpus-level inconsistency detection. We present CLAIRE,
an agentic system that combines LLM reasoning with retrieval to surface
potentially inconsistent claims along with contextual evidence for human
review. In a user study with experienced Wikipedia editors, 87.5% reported
higher confidence when using CLAIRE, and participants identified 64.7% more
inconsistencies in the same amount of time.
Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first
benchmark of real Wikipedia inconsistencies. Using random sampling with
CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts
contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS
and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset
reveals substantial headroom: the best fully automated system achieves an AUROC
of only 75.1%.
Our results show that contradictions are a measurable component of Wikipedia
and that LLM-based systems like CLAIRE can provide a practical tool to help
editors improve knowledge consistency at scale.