大規模言語モデルを用いたナレッジグラフ検証のベンチマーク評価
Benchmarking Large Language Models for Knowledge Graph Validation
February 11, 2026
著者: Farzad Shami, Stefano Marchesin, Gianmaria Silvello
cs.AI
要旨
知識グラフ(KG)は、エンティティを関係性で結びつけることで構造化された事実知識を格納し、多くのアプリケーションにおいて重要な役割を果たしている。これらのアプリケーションはKGの事実の正確性に依存するため、事実検証は不可欠であるが、困難な課題である。専門家による手動検証が理想的ではあるが、大規模には非現実的である。自動化手法は有望であるものの、実世界のKGへの適用には未だ成熟していない。大規模言語モデル(LLM)は、その意味理解能力と知識アクセスにより可能性を秘めているが、KGの事実検証における適性と有効性はほとんど検討されていない。
本論文では、LLMのKG事実検証能力を3つの重要側面から評価するためのベンチマークFactCheckを提案する:(1)LLMの内部知識、(2)検索拡張生成(RAG)を介した外部証拠、(3)複数モデルの合意に基づく集約知識。3つの多様な実世界KGを用いて、オープンソースおよび商用LLMを評価した。FactCheckには、KG事実検証向けに調整された200万以上の文書からなるRAGデータセットも含まれる。さらに、検証判断を分析するための対話型探索プラットフォームを提供する。
実験分析により、LLMが有望な結果を示す一方で、実世界のKG検証シナリオで使用するには未だ十分に安定性と信頼性に欠けることが実証された。RAG手法による外部証拠の統合は性能が不安定であり、より簡素な手法に対し一貫した改善をもたらさないまま、計算コストが高くなる場合があった。同様に、複数モデル合意に基づく戦略も個々のモデルを一貫して上回るわけではなく、万能な解決策の欠如を浮き彫りにした。これらの知見は、この困難かつ重要な課題を体系的に評価し進展を促すためのFactCheckのようなベンチマークの必要性をさらに強調するものである。
English
Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored.
In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions.
The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.