ChatPaper.aiChatPaper

지식 그래프 검증을 위한 대규모 언어 모델 벤치마킹

Benchmarking Large Language Models for Knowledge Graph Validation

February 11, 2026
저자: Farzad Shami, Stefano Marchesin, Gianmaria Silvello
cs.AI

초록

지식 그래프(KG)는 엔티티 간 관계를 연결하여 구조화된 사실 정보를 저장하며, 다양한 응용 분야에서 중요한 역할을 합니다. 이러한 응용 분야들은 KG의 사실 정확성에 의존하므로 사실 검증은 필수적이지만 여전히 어려운 과제입니다. 전문가의 수동 검증이 이상적이지만 대규모로 실행하기에는 실용적이지 않습니다. 자동화 방법은 가능성을 보여주지만 실제 KG에 적용하기에는 아직 부족한 점이 있습니다. 대규모 언어 모델(LLM)은 의미론적 이해와 지식 접근 능력으로 인해 잠재력을 가지고 있으나, KG 사실 검증에 대한 적합성과 효과는 아직 거의 연구되지 않았습니다. 본 논문에서는 LLM의 KG 사실 검증 능력을 세 가지 핵심 차원에서 평가하기 위한 벤치마크인 FactCheck를 소개합니다: (1) LLM의 내부 지식 활용; (2) 검증 증강 생성(RAG)을 통한 외부 증거 활용; (3) 다중 모델 합의 전략을 적용한 집계 지식 활용. 우리는 세 가지 다양한 실제 KG에 대해 오픈소스와 상용 LLM을 평가했습니다. FactCheck는 또한 KG 사실 검증에 특화된 200만 개 이상의 문서로 구성된 RAG 데이터셋을 포함합니다. 추가적으로 검증 결정을 분석하기 위한 대화형 탐색 플랫폼을 제공합니다. 실험 분석 결과, LLM이 유망한 결과를 보여주기는 하지만 실제 KG 검증 시나리오에 사용되기에는 아직 충분히 안정적이고 신뢰할 만하지 않음을 확인했습니다. RAG 방법을 통한 외부 증거 통합은 성능 변동을 보이며, 더 효율적인 접근법 대비 일관되지 않은 개선 효과를 제공합니다(더 높은 계산 비용과 함께). 마찬가지로, 다중 모델 합의 기반 전략도 개별 모델을 항상 능가하지는 않아, 만능 해결책의 부재를 강조합니다. 이러한 결과는 이 어렵지만 중요한 과제를 체계적으로 평가하고 발전시키기 위해 FactCheck와 같은 벤치마크의 필요성을 더욱 부각시킵니다.
English
Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored. In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions. The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.
PDF41February 13, 2026