Détection des incohérences de connaissances au niveau du corpus dans Wikipédia à l'aide de grands modèles de langage

papers.abstract

Wikipedia est le plus grand corpus de connaissances ouvert, largement utilisé dans le monde entier et servant de ressource clé pour l'entraînement des grands modèles de langage (LLM) et des systèmes de génération augmentée par la recherche d'information (RAG). Assurer son exactitude est donc crucial. Mais à quel point Wikipedia est-il précis, et comment pouvons-nous l'améliorer ? Nous nous concentrons sur les incohérences, un type spécifique d'inexactitude factuelle, et introduisons la tâche de détection d'incohérences au niveau du corpus. Nous présentons CLAIRE, un système agentique qui combine le raisonnement des LLM avec la recherche d'information pour identifier des affirmations potentiellement incohérentes ainsi que des preuves contextuelles pour une revue humaine. Dans une étude utilisateur avec des éditeurs expérimentés de Wikipedia, 87,5 % ont rapporté une confiance accrue lors de l'utilisation de CLAIRE, et les participants ont identifié 64,7 % d'incohérences supplémentaires dans le même laps de temps. En combinant CLAIRE avec l'annotation humaine, nous contribuons WIKICOLLIDE, le premier benchmark d'incohérences réelles de Wikipedia. En utilisant un échantillonnage aléatoire avec une analyse assistée par CLAIRE, nous constatons qu'au moins 3,3 % des faits de l'édition anglaise de Wikipedia contredisent un autre fait, avec des incohérences se propageant dans 7,3 % des exemples de FEVEROUS et 4,0 % de ceux d'AmbigQA. L'évaluation de modèles de référence solides sur cet ensemble de données révèle une marge d'amélioration substantielle : le meilleur système entièrement automatisé atteint une AUROC de seulement 75,1 %. Nos résultats montrent que les contradictions sont une composante mesurable de Wikipedia et que les systèmes basés sur les LLM comme CLAIRE peuvent fournir un outil pratique pour aider les éditeurs à améliorer la cohérence des connaissances à grande échelle.

English

Wikipedia is the largest open knowledge corpus, widely used worldwide and serving as a key resource for training large language models (LLMs) and retrieval-augmented generation (RAG) systems. Ensuring its accuracy is therefore critical. But how accurate is Wikipedia, and how can we improve it? We focus on inconsistencies, a specific type of factual inaccuracy, and introduce the task of corpus-level inconsistency detection. We present CLAIRE, an agentic system that combines LLM reasoning with retrieval to surface potentially inconsistent claims along with contextual evidence for human review. In a user study with experienced Wikipedia editors, 87.5% reported higher confidence when using CLAIRE, and participants identified 64.7% more inconsistencies in the same amount of time. Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first benchmark of real Wikipedia inconsistencies. Using random sampling with CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset reveals substantial headroom: the best fully automated system achieves an AUROC of only 75.1%. Our results show that contradictions are a measurable component of Wikipedia and that LLM-based systems like CLAIRE can provide a practical tool to help editors improve knowledge consistency at scale.

Détection des incohérences de connaissances au niveau du corpus dans Wikipédia à l'aide de grands modèles de langage

Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models

papers.abstract

Support