ChatPaper.aiChatPaper

Évaluation comparative des grands modèles de langage pour la validation de graphes de connaissances

Benchmarking Large Language Models for Knowledge Graph Validation

February 11, 2026
papers.authors: Farzad Shami, Stefano Marchesin, Gianmaria Silvello
cs.AI

papers.abstract

Les graphes de connaissances (KG) stockent des connaissances factuelles structurées en reliant des entités par des relations, ce qui est crucial pour de nombreuses applications. Ces applications dépendent de la précision factuelle du KG, ce qui rend la vérification des faits essentielle, mais difficile. La vérification manuelle par des experts est idéale mais impraticable à grande échelle. Les méthodes automatisées sont prometteuses mais pas encore adaptées aux KG du monde réel. Les grands modèles de langage (LLM) offrent un potentiel grâce à leur compréhension sémantique et leur accès aux connaissances, mais leur adéquation et leur efficacité pour la validation des faits dans les KG restent largement inexplorées. Dans cet article, nous présentons FactCheck, un benchmark conçu pour évaluer les LLM pour la validation des faits dans les KG selon trois dimensions clés : (1) les connaissances internes des LLM ; (2) les preuves externes via le *Retrieval-Augmented Generation* (RAG) ; et (3) les connaissances agrégées utilisant une stratégie de consensus multi-modèles. Nous avons évalué des LLM open-source et commerciaux sur trois KG réels et diversifiés. FactCheck inclut également un jeu de données RAG avec plus de 2 millions de documents spécifiquement adaptés à la validation des faits dans les KG. De plus, nous proposons une plateforme d'exploration interactive pour analyser les décisions de vérification. Les analyses expérimentales démontrent que si les LLM produisent des résultats prometteurs, ils ne sont pas encore suffisamment stables et fiables pour être utilisés dans des scénarios réels de validation de KG. L'intégration de preuves externes via les méthodes RAG donne des performances fluctuantes, offrant des améliorations incohérentes par rapport aux approches plus simples – et ce à un coût computationnel plus élevé. De même, les stratégies basées sur un consensus multi-modèles ne surclassent pas systématiquement les modèles individuels, soulignant l'absence de solution universelle. Ces résultats soulignent davantage la nécessité d'un benchmark comme FactCheck pour évaluer systématiquement et faire progresser cette tâche difficile mais cruciale.
English
Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored. In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions. The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.
PDF41February 13, 2026