Detectando Inconsistências de Conhecimento em Nível de Corpus na Wikipédia com Modelos de Linguagem de Grande Escala

Resumo

A Wikipédia é o maior corpus de conhecimento aberto, amplamente utilizado em todo o mundo e servindo como um recurso fundamental para o treinamento de grandes modelos de linguagem (LLMs) e sistemas de geração aumentada por recuperação (RAG). Garantir sua precisão é, portanto, crucial. Mas quão precisa é a Wikipédia, e como podemos melhorá-la? Nosso foco está nas inconsistências, um tipo específico de imprecisão factual, e introduzimos a tarefa de detecção de inconsistências em nível de corpus. Apresentamos o CLAIRE, um sistema agente que combina o raciocínio de LLMs com a recuperação de informações para identificar afirmações potencialmente inconsistentes, juntamente com evidências contextuais para revisão humana. Em um estudo com editores experientes da Wikipédia, 87,5% relataram maior confiança ao usar o CLAIRE, e os participantes identificaram 64,7% mais inconsistências no mesmo período de tempo. Combinando o CLAIRE com anotações humanas, contribuímos com o WIKICOLLIDE, o primeiro benchmark de inconsistências reais da Wikipédia. Usando amostragem aleatória com análise assistida pelo CLAIRE, descobrimos que pelo menos 3,3% dos fatos da Wikipédia em inglês contradizem outro fato, com inconsistências propagando-se para 7,3% dos exemplos do FEVEROUS e 4,0% do AmbigQA. O benchmarking de bases fortes nesse conjunto de dados revela uma margem significativa de melhoria: o melhor sistema totalmente automatizado alcança um AUROC de apenas 75,1%. Nossos resultados mostram que as contradições são um componente mensurável da Wikipédia e que sistemas baseados em LLMs, como o CLAIRE, podem fornecer uma ferramenta prática para ajudar os editores a melhorar a consistência do conhecimento em escala.

English

Wikipedia is the largest open knowledge corpus, widely used worldwide and serving as a key resource for training large language models (LLMs) and retrieval-augmented generation (RAG) systems. Ensuring its accuracy is therefore critical. But how accurate is Wikipedia, and how can we improve it? We focus on inconsistencies, a specific type of factual inaccuracy, and introduce the task of corpus-level inconsistency detection. We present CLAIRE, an agentic system that combines LLM reasoning with retrieval to surface potentially inconsistent claims along with contextual evidence for human review. In a user study with experienced Wikipedia editors, 87.5% reported higher confidence when using CLAIRE, and participants identified 64.7% more inconsistencies in the same amount of time. Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first benchmark of real Wikipedia inconsistencies. Using random sampling with CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset reveals substantial headroom: the best fully automated system achieves an AUROC of only 75.1%. Our results show that contradictions are a measurable component of Wikipedia and that LLM-based systems like CLAIRE can provide a practical tool to help editors improve knowledge consistency at scale.

Detectando Inconsistências de Conhecimento em Nível de Corpus na Wikipédia com Modelos de Linguagem de Grande Escala

Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models

Resumo

Support