Detectando Inconsistências de Conhecimento em Nível de Corpus na Wikipédia com Modelos de Linguagem de Grande Escala
Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models
September 27, 2025
Autores: Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam
cs.AI
Resumo
A Wikipédia é o maior corpus de conhecimento aberto, amplamente utilizado em todo o mundo e servindo como um recurso fundamental para o treinamento de grandes modelos de linguagem (LLMs) e sistemas de geração aumentada por recuperação (RAG). Garantir sua precisão é, portanto, crucial. Mas quão precisa é a Wikipédia, e como podemos melhorá-la?
Nosso foco está nas inconsistências, um tipo específico de imprecisão factual, e introduzimos a tarefa de detecção de inconsistências em nível de corpus. Apresentamos o CLAIRE, um sistema agente que combina o raciocínio de LLMs com a recuperação de informações para identificar afirmações potencialmente inconsistentes, juntamente com evidências contextuais para revisão humana. Em um estudo com editores experientes da Wikipédia, 87,5% relataram maior confiança ao usar o CLAIRE, e os participantes identificaram 64,7% mais inconsistências no mesmo período de tempo.
Combinando o CLAIRE com anotações humanas, contribuímos com o WIKICOLLIDE, o primeiro benchmark de inconsistências reais da Wikipédia. Usando amostragem aleatória com análise assistida pelo CLAIRE, descobrimos que pelo menos 3,3% dos fatos da Wikipédia em inglês contradizem outro fato, com inconsistências propagando-se para 7,3% dos exemplos do FEVEROUS e 4,0% do AmbigQA. O benchmarking de bases fortes nesse conjunto de dados revela uma margem significativa de melhoria: o melhor sistema totalmente automatizado alcança um AUROC de apenas 75,1%.
Nossos resultados mostram que as contradições são um componente mensurável da Wikipédia e que sistemas baseados em LLMs, como o CLAIRE, podem fornecer uma ferramenta prática para ajudar os editores a melhorar a consistência do conhecimento em escala.
English
Wikipedia is the largest open knowledge corpus, widely used worldwide and
serving as a key resource for training large language models (LLMs) and
retrieval-augmented generation (RAG) systems. Ensuring its accuracy is
therefore critical. But how accurate is Wikipedia, and how can we improve it?
We focus on inconsistencies, a specific type of factual inaccuracy, and
introduce the task of corpus-level inconsistency detection. We present CLAIRE,
an agentic system that combines LLM reasoning with retrieval to surface
potentially inconsistent claims along with contextual evidence for human
review. In a user study with experienced Wikipedia editors, 87.5% reported
higher confidence when using CLAIRE, and participants identified 64.7% more
inconsistencies in the same amount of time.
Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first
benchmark of real Wikipedia inconsistencies. Using random sampling with
CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts
contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS
and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset
reveals substantial headroom: the best fully automated system achieves an AUROC
of only 75.1%.
Our results show that contradictions are a measurable component of Wikipedia
and that LLM-based systems like CLAIRE can provide a practical tool to help
editors improve knowledge consistency at scale.