Обнаружение несоответствий в знаниях на уровне корпуса в Википедии с использованием больших языковых моделей
Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models
September 27, 2025
Авторы: Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam
cs.AI
Аннотация
Wikipedia представляет собой крупнейший корпус открытых знаний, широко используемый во всем мире и являющийся ключевым ресурсом для обучения больших языковых моделей (LLM) и систем генерации с использованием поиска (RAG). Обеспечение его точности, таким образом, имеет критически важное значение. Но насколько точна Wikipedia и как мы можем улучшить её?
Мы сосредоточиваемся на противоречиях — специфическом типе фактических неточностей — и вводим задачу обнаружения противоречий на уровне корпуса. Мы представляем CLAIRE, агентную систему, которая сочетает рассуждения LLM с поиском для выявления потенциально противоречивых утверждений вместе с контекстуальными доказательствами для последующего анализа человеком. В исследовании с участием опытных редакторов Wikipedia 87,5% участников сообщили о повышении уверенности при использовании CLAIRE, а участники выявили на 64,7% больше противоречий за то же время.
Объединяя CLAIRE с аннотацией, выполненной людьми, мы представляем WIKICOLLIDE — первый бенчмарк реальных противоречий в Wikipedia. Используя случайную выборку с анализом, выполненным с помощью CLAIRE, мы обнаружили, что как минимум 3,3% фактов в англоязычной Wikipedia противоречат другим фактам, причём эти противоречия распространяются на 7,3% примеров из FEVEROUS и 4,0% из AmbigQA. Тестирование сильных базовых моделей на этом наборе данных показывает значительный потенциал для улучшения: лучшая полностью автоматизированная система достигает AUROC всего 75,1%.
Наши результаты демонстрируют, что противоречия являются измеримым компонентом Wikipedia, а системы на основе LLM, такие как CLAIRE, могут предоставить практический инструмент для помощи редакторам в улучшении согласованности знаний в масштабе.
English
Wikipedia is the largest open knowledge corpus, widely used worldwide and
serving as a key resource for training large language models (LLMs) and
retrieval-augmented generation (RAG) systems. Ensuring its accuracy is
therefore critical. But how accurate is Wikipedia, and how can we improve it?
We focus on inconsistencies, a specific type of factual inaccuracy, and
introduce the task of corpus-level inconsistency detection. We present CLAIRE,
an agentic system that combines LLM reasoning with retrieval to surface
potentially inconsistent claims along with contextual evidence for human
review. In a user study with experienced Wikipedia editors, 87.5% reported
higher confidence when using CLAIRE, and participants identified 64.7% more
inconsistencies in the same amount of time.
Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first
benchmark of real Wikipedia inconsistencies. Using random sampling with
CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts
contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS
and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset
reveals substantial headroom: the best fully automated system achieves an AUROC
of only 75.1%.
Our results show that contradictions are a measurable component of Wikipedia
and that LLM-based systems like CLAIRE can provide a practical tool to help
editors improve knowledge consistency at scale.