ChatPaper.aiChatPaper

Comparação de Modelos de Linguagem de Grande Porte para Validação de Grafos de Conhecimento

Benchmarking Large Language Models for Knowledge Graph Validation

February 11, 2026
Autores: Farzad Shami, Stefano Marchesin, Gianmaria Silvello
cs.AI

Resumo

Os Grafos de Conhecimento (KGs) armazenam conhecimento factual estruturado ao conectar entidades por meio de relações, sendo cruciais para muitas aplicações. Essas aplicações dependem da precisão factual do KG, tornando a verificação de fatos essencial, embora desafiadora. A verificação manual por especialistas é ideal, mas impraticável em larga escala. Métodos automatizados são promissores, mas não estão prontos para KGs do mundo real. Os Modelos de Linguagem de Grande Porte (LLMs) oferecem potencial devido à sua compreensão semântica e acesso ao conhecimento, mas sua adequação e eficácia para a validação de fatos em KGs permanecem amplamente inexploradas. Neste artigo, apresentamos o FactCheck, um benchmark projetado para avaliar LLMs na validação de fatos em KGs em três dimensões principais: (1) o conhecimento interno dos LLMs; (2) evidências externas via Geração Aumentada por Recuperação (RAG); e (3) conhecimento agregado empregando uma estratégia de consenso multi-modelo. Avaliamos LLMs de código aberto e comerciais em três KGs reais e diversos. O FactCheck também inclui um conjunto de dados RAG com mais de 2 milhões de documentos específico para validação de fatos em KGs. Adicionalmente, oferecemos uma plataforma de exploração interativa para analisar decisões de verificação. As análises experimentais demonstram que, embora os LLMs produzam resultados promissores, eles ainda não são suficientemente estáveis e confiáveis para serem usados em cenários reais de validação de KGs. A integração de evidências externas por meio de métodos RAG resulta em desempenho flutuante, fornecendo melhorias inconsistentes em relação a abordagens mais simples – a um custo computacional mais alto. Da mesma forma, estratégias baseadas em consenso multi-modelo não superam consistentemente modelos individuais, destacando a falta de uma solução universal. Essas descobertas reforçam ainda mais a necessidade de um benchmark como o FactCheck para avaliar sistematicamente e impulsionar o progresso nesta tarefa difícil, porém crucial.
English
Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored. In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions. The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.
PDF62March 10, 2026