Détection des incohérences de connaissances au niveau du corpus dans Wikipédia à l'aide de grands modèles de langage
Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models
September 27, 2025
papers.authors: Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam
cs.AI
papers.abstract
Wikipedia est le plus grand corpus de connaissances ouvert, largement utilisé dans le monde entier et servant de ressource clé pour l'entraînement des grands modèles de langage (LLM) et des systèmes de génération augmentée par la recherche d'information (RAG). Assurer son exactitude est donc crucial. Mais à quel point Wikipedia est-il précis, et comment pouvons-nous l'améliorer ?
Nous nous concentrons sur les incohérences, un type spécifique d'inexactitude factuelle, et introduisons la tâche de détection d'incohérences au niveau du corpus. Nous présentons CLAIRE, un système agentique qui combine le raisonnement des LLM avec la recherche d'information pour identifier des affirmations potentiellement incohérentes ainsi que des preuves contextuelles pour une revue humaine. Dans une étude utilisateur avec des éditeurs expérimentés de Wikipedia, 87,5 % ont rapporté une confiance accrue lors de l'utilisation de CLAIRE, et les participants ont identifié 64,7 % d'incohérences supplémentaires dans le même laps de temps.
En combinant CLAIRE avec l'annotation humaine, nous contribuons WIKICOLLIDE, le premier benchmark d'incohérences réelles de Wikipedia. En utilisant un échantillonnage aléatoire avec une analyse assistée par CLAIRE, nous constatons qu'au moins 3,3 % des faits de l'édition anglaise de Wikipedia contredisent un autre fait, avec des incohérences se propageant dans 7,3 % des exemples de FEVEROUS et 4,0 % de ceux d'AmbigQA. L'évaluation de modèles de référence solides sur cet ensemble de données révèle une marge d'amélioration substantielle : le meilleur système entièrement automatisé atteint une AUROC de seulement 75,1 %.
Nos résultats montrent que les contradictions sont une composante mesurable de Wikipedia et que les systèmes basés sur les LLM comme CLAIRE peuvent fournir un outil pratique pour aider les éditeurs à améliorer la cohérence des connaissances à grande échelle.
English
Wikipedia is the largest open knowledge corpus, widely used worldwide and
serving as a key resource for training large language models (LLMs) and
retrieval-augmented generation (RAG) systems. Ensuring its accuracy is
therefore critical. But how accurate is Wikipedia, and how can we improve it?
We focus on inconsistencies, a specific type of factual inaccuracy, and
introduce the task of corpus-level inconsistency detection. We present CLAIRE,
an agentic system that combines LLM reasoning with retrieval to surface
potentially inconsistent claims along with contextual evidence for human
review. In a user study with experienced Wikipedia editors, 87.5% reported
higher confidence when using CLAIRE, and participants identified 64.7% more
inconsistencies in the same amount of time.
Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first
benchmark of real Wikipedia inconsistencies. Using random sampling with
CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts
contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS
and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset
reveals substantial headroom: the best fully automated system achieves an AUROC
of only 75.1%.
Our results show that contradictions are a measurable component of Wikipedia
and that LLM-based systems like CLAIRE can provide a practical tool to help
editors improve knowledge consistency at scale.