Erkennung von Wissensinkonsistenzen auf Korpusebene in Wikipedia mit großen Sprachmodellen
Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models
September 27, 2025
papers.authors: Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam
cs.AI
papers.abstract
Wikipedia ist das größte offene Wissenskorpus, das weltweit weit verbreitet ist und als zentrale Ressource für das Training großer Sprachmodelle (LLMs) und retrieval-augmentierter Generationssysteme (RAG) dient. Die Sicherstellung seiner Genauigkeit ist daher von entscheidender Bedeutung. Doch wie genau ist Wikipedia, und wie können wir sie verbessern?
Wir konzentrieren uns auf Inkonsistenzen, eine spezifische Art von faktischen Ungenauigkeiten, und führen die Aufgabe der korpusweiten Inkonsistenzdetektion ein. Wir präsentieren CLAIRE, ein agentenbasiertes System, das LLM-basiertes Denken mit Retrieval kombiniert, um potenziell widersprüchliche Behauptungen zusammen mit kontextuellen Beweisen für die menschliche Überprüfung aufzudecken. In einer Nutzerstudie mit erfahrenen Wikipedia-Redakteuren gaben 87,5 % an, mit CLAIRE ein höheres Vertrauen zu haben, und die Teilnehmer identifizierten 64,7 % mehr Inkonsistenzen in der gleichen Zeit.
Durch die Kombination von CLAIRE mit menschlicher Annotation tragen wir WIKICOLLIDE bei, den ersten Benchmark für reale Wikipedia-Inkonsistenzen. Mithilfe von Zufallsstichproben und CLAIRE-gestützter Analyse stellen wir fest, dass mindestens 3,3 % der Fakten in der englischen Wikipedia einem anderen Fakt widersprechen, wobei sich Inkonsistenzen auf 7,3 % der FEVEROUS- und 4,0 % der AmbigQA-Beispiele auswirken. Die Bewertung starker Baselines auf diesem Datensatz zeigt erheblichen Verbesserungsbedarf: Das beste vollautomatisierte System erreicht einen AUROC von nur 75,1 %.
Unsere Ergebnisse zeigen, dass Widersprüche ein messbarer Bestandteil von Wikipedia sind und dass LLM-basierte Systeme wie CLAIRE ein praktisches Werkzeug bieten können, um Redakteuren bei der Verbesserung der Wissenskonsistenz im großen Maßstab zu unterstützen.
English
Wikipedia is the largest open knowledge corpus, widely used worldwide and
serving as a key resource for training large language models (LLMs) and
retrieval-augmented generation (RAG) systems. Ensuring its accuracy is
therefore critical. But how accurate is Wikipedia, and how can we improve it?
We focus on inconsistencies, a specific type of factual inaccuracy, and
introduce the task of corpus-level inconsistency detection. We present CLAIRE,
an agentic system that combines LLM reasoning with retrieval to surface
potentially inconsistent claims along with contextual evidence for human
review. In a user study with experienced Wikipedia editors, 87.5% reported
higher confidence when using CLAIRE, and participants identified 64.7% more
inconsistencies in the same amount of time.
Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first
benchmark of real Wikipedia inconsistencies. Using random sampling with
CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts
contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS
and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset
reveals substantial headroom: the best fully automated system achieves an AUROC
of only 75.1%.
Our results show that contradictions are a measurable component of Wikipedia
and that LLM-based systems like CLAIRE can provide a practical tool to help
editors improve knowledge consistency at scale.