ChatPaper.aiChatPaper

Benchmarking von Large Language Models zur Wissensgraphen-Validierung

Benchmarking Large Language Models for Knowledge Graph Validation

February 11, 2026
papers.authors: Farzad Shami, Stefano Marchesin, Gianmaria Silvello
cs.AI

papers.abstract

Wissensgraphen (KGs) speichern strukturiertes Faktenwissen durch die Verknüpfung von Entitäten mittels Beziehungen und sind für viele Anwendungen von entscheidender Bedeutung. Diese Anwendungen hängen von der faktischen Genauigkeit des KGs ab, weshalb die Überprüfung von Fakten essenziell, aber auch herausfordernd ist. Eine manuelle Überprüfung durch Experten wäre ideal, ist jedoch in großem Maßstab unpraktikabel. Automatisierte Methoden sind vielversprechend, aber noch nicht einsatzbereit für reale KGs. Große Sprachmodelle (LLMs) bieten Potenzial aufgrund ihres semantischen Verständnisses und Wissenszugriffs, doch ihre Eignung und Effektivität für die Faktenvalidierung in KGs sind weitgehend unerforscht. In diesem Artikel stellen wir FactCheck vor, einen Benchmark, der entwickelt wurde, um LLMs für die KG-Faktenvalidierung in drei Schlüsseldimensionen zu evaluieren: (1) das interne Wissen der LLMs; (2) externe Evidenz mittels Retrieval-Augmented Generation (RAG); und (3) aggregiertes Wissen unter Verwendung einer Multi-Modell-Konsensstrategie. Wir evaluierten Open-Source- und kommerzielle LLMs anhand von drei verschiedenen realen KGs. FactCheck umfasst auch einen RAG-Datensatz mit über 2 Millionen Dokumenten, der speziell für die KG-Faktenvalidierung zugeschnitten ist. Zusätzlich bieten wir eine interaktive Explorationsplattform zur Analyse von Verifizierungsentscheidungen. Die experimentellen Analysen zeigen, dass LLMs zwar vielversprechende Ergebnisse liefern, aber noch nicht ausreichend stabil und zuverlässig für den Einsatz in realen KG-Validierungsszenarien sind. Die Integration externer Evidenz durch RAG-Methoden führt zu schwankenden Leistungen und bietet inkonsistente Verbesserungen gegenüber schlankeren Ansätzen – bei höheren Rechenkosten. Ebenso übertreffen Strategien, die auf Multi-Modell-Konsens basieren, nicht konsistent einzelne Modelle, was den Mangel an einer universellen Lösung unterstreicht. Diese Ergebnisse unterstreichen weiterhin die Notwendigkeit eines Benchmarks wie FactCheck, um diese schwierige yet cruciale Aufgabe systematisch zu evaluieren und Fortschritte voranzutreiben.
English
Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored. In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions. The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.
PDF41February 13, 2026