Valutazione delle Prestazioni di Modelli Linguistici di Grandi Dimensioni per la Validazione di Grafi della Conoscenza
Benchmarking Large Language Models for Knowledge Graph Validation
February 11, 2026
Autori: Farzad Shami, Stefano Marchesin, Gianmaria Silvello
cs.AI
Abstract
I Knowledge Graph (KG) memorizzano conoscenza fattuale strutturata collegando entità attraverso relazioni, risultando cruciali per molte applicazioni. Queste applicazioni dipendono dall'accuratezza fattuale del KG, rendendo la verifica dei fatti essenziale, sebbene impegnativa. La verifica manuale da parte di esperti è l'ideale ma risulta impraticabile su larga scala. I metodi automatizzati sono promettenti ma non ancora pronti per KG del mondo reale. I Large Language Model (LLM) offrono un potenziale grazie alla loro comprensione semantica e accesso alla conoscenza, tuttavia la loro idoneità ed efficacia per la validazione di fatti nei KG rimangono in gran parte inesplorate.
In questo articolo presentiamo FactCheck, un benchmark progettato per valutare gli LLM per la validazione di fatti nei KG lungo tre dimensioni chiave: (1) la conoscenza interna degli LLM; (2) l'evidenza esterna tramite Retrieval-Augmented Generation (RAG); e (3) la conoscenza aggregata che impiega una strategia di consenso multi-modello. Abbiamo valutato LLM open-source e commerciali su tre KG reali e diversi. FactCheck include anche un dataset RAG con oltre 2 milioni di documenti specificamente creato per la validazione di fatti nei KG. Inoltre, forniamo una piattaforma di esplorazione interattiva per analizzare le decisioni di verifica.
Le analisi sperimentali dimostrano che, sebbene gli LLM producano risultati promettenti, non sono ancora sufficientemente stabili e affidabili per essere utilizzati in scenari reali di validazione di KG. L'integrazione di evidenze esterne attraverso metodi RAG produce prestazioni fluttuanti, fornendo miglioramenti inconsistenti rispetto ad approcci più semplici – a costi computazionali più elevati. Allo stesso modo, le strategie basate sul consenso multi-modello non superano in modo consistente i modelli individuali, sottolineando la mancanza di una soluzione universale. Questi risultati enfatizzano ulteriormente la necessità di un benchmark come FactCheck per valutare sistematicamente e guidare il progresso in questo compito difficile ma cruciale.
English
Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored.
In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions.
The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.