Erkennung von Wissensinkonsistenzen auf Korpusebene in Wikipedia mit großen Sprachmodellen

papers.abstract

Wikipedia ist das größte offene Wissenskorpus, das weltweit weit verbreitet ist und als zentrale Ressource für das Training großer Sprachmodelle (LLMs) und retrieval-augmentierter Generationssysteme (RAG) dient. Die Sicherstellung seiner Genauigkeit ist daher von entscheidender Bedeutung. Doch wie genau ist Wikipedia, und wie können wir sie verbessern? Wir konzentrieren uns auf Inkonsistenzen, eine spezifische Art von faktischen Ungenauigkeiten, und führen die Aufgabe der korpusweiten Inkonsistenzdetektion ein. Wir präsentieren CLAIRE, ein agentenbasiertes System, das LLM-basiertes Denken mit Retrieval kombiniert, um potenziell widersprüchliche Behauptungen zusammen mit kontextuellen Beweisen für die menschliche Überprüfung aufzudecken. In einer Nutzerstudie mit erfahrenen Wikipedia-Redakteuren gaben 87,5 % an, mit CLAIRE ein höheres Vertrauen zu haben, und die Teilnehmer identifizierten 64,7 % mehr Inkonsistenzen in der gleichen Zeit. Durch die Kombination von CLAIRE mit menschlicher Annotation tragen wir WIKICOLLIDE bei, den ersten Benchmark für reale Wikipedia-Inkonsistenzen. Mithilfe von Zufallsstichproben und CLAIRE-gestützter Analyse stellen wir fest, dass mindestens 3,3 % der Fakten in der englischen Wikipedia einem anderen Fakt widersprechen, wobei sich Inkonsistenzen auf 7,3 % der FEVEROUS- und 4,0 % der AmbigQA-Beispiele auswirken. Die Bewertung starker Baselines auf diesem Datensatz zeigt erheblichen Verbesserungsbedarf: Das beste vollautomatisierte System erreicht einen AUROC von nur 75,1 %. Unsere Ergebnisse zeigen, dass Widersprüche ein messbarer Bestandteil von Wikipedia sind und dass LLM-basierte Systeme wie CLAIRE ein praktisches Werkzeug bieten können, um Redakteuren bei der Verbesserung der Wissenskonsistenz im großen Maßstab zu unterstützen.

English

Wikipedia is the largest open knowledge corpus, widely used worldwide and serving as a key resource for training large language models (LLMs) and retrieval-augmented generation (RAG) systems. Ensuring its accuracy is therefore critical. But how accurate is Wikipedia, and how can we improve it? We focus on inconsistencies, a specific type of factual inaccuracy, and introduce the task of corpus-level inconsistency detection. We present CLAIRE, an agentic system that combines LLM reasoning with retrieval to surface potentially inconsistent claims along with contextual evidence for human review. In a user study with experienced Wikipedia editors, 87.5% reported higher confidence when using CLAIRE, and participants identified 64.7% more inconsistencies in the same amount of time. Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first benchmark of real Wikipedia inconsistencies. Using random sampling with CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset reveals substantial headroom: the best fully automated system achieves an AUROC of only 75.1%. Our results show that contradictions are a measurable component of Wikipedia and that LLM-based systems like CLAIRE can provide a practical tool to help editors improve knowledge consistency at scale.

Erkennung von Wissensinkonsistenzen auf Korpusebene in Wikipedia mit großen Sprachmodellen

Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models

papers.abstract

Support