Сравнительный анализ больших языковых моделей для проверки достоверности знаний в графах знаний
Benchmarking Large Language Models for Knowledge Graph Validation
February 11, 2026
Авторы: Farzad Shami, Stefano Marchesin, Gianmaria Silvello
cs.AI
Аннотация
Графы знаний (ГЗ) хранят структурированные фактические знания, связывая сущности через отношения, что критически важно для многих приложений. Эти приложения зависят от фактической точности ГЗ, поэтому верификация фактов является важной, но сложной задачей. Экспертная ручная проверка идеальна, но непрактична в крупных масштабах. Автоматизированные методы показывают потенциал, но не готовы для работы с реальными ГЗ. Большие языковые модели (БЯМ) предлагают возможности благодаря своему семантическому пониманию и доступу к знаниям, однако их пригодность и эффективность для проверки фактов в ГЗ остаются в значительной степени неисследованными.
В данной статье мы представляем FactCheck — эталонный набор данных, разработанный для оценки БЯМ в задаче проверки фактов ГЗ по трем ключевым направлениям: (1) внутренние знания БЯМ; (2) использование внешних доказательств посредством Retrieval-Augmented Generation (RAG); и (3) агрегирование знаний с применением стратегии консенсуса нескольких моделей. Мы оценили открытые и коммерческие БЯМ на трех разнородных реальных ГЗ. FactCheck также включает набор данных для RAG, содержащий более 2 миллионов документов, адаптированных для проверки фактов ГЗ. Дополнительно мы предлагаем интерактивную платформу для анализа решений верификации.
Экспериментальный анализ демонстрирует, что хотя БЯМ показывают обнадеживающие результаты, они все еще недостаточно стабильны и надежны для использования в реальных сценариях валидации ГЗ. Интеграция внешних доказательств с помощью методов RAG дает нестабильные результаты, обеспечивая непоследовательное улучшение по сравнению с более простыми подходами — при более высоких вычислительных затратах. Аналогично, стратегии, основанные на консенсусе нескольких моделей, не всегда превосходят одиночные модели, что подчеркивает отсутствие универсального решения. Эти выводы дополнительно подчеркивают необходимость эталона, такого как FactCheck, для систематической оценки и стимулирования прогресса в этой сложной, но crucialной задаче.
English
Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored.
In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions.
The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.