ChatPaper.aiChatPaper

Evaluación Comparativa de Modelos de Lenguaje Grandes para la Validación de Grafos de Conocimiento

Benchmarking Large Language Models for Knowledge Graph Validation

February 11, 2026
Autores: Farzad Shami, Stefano Marchesin, Gianmaria Silvello
cs.AI

Resumen

Los Grafos de Conocimiento (KG, por sus siglas en inglés) almacenan conocimiento factual estructurado mediante la vinculación de entidades a través de relaciones, siendo cruciales para muchas aplicaciones. Estas aplicaciones dependen de la precisión factual del KG, por lo que la verificación de hechos es esencial, aunque desafiante. La verificación manual por expertos es ideal pero impracticable a gran escala. Los métodos automatizados son prometedores pero no están listos para su uso en KG del mundo real. Los Modelos de Lenguaje Grandes (LLMs) ofrecen potencial gracias a su comprensión semántica y acceso al conocimiento; sin embargo, su idoneidad y eficacia para la validación de hechos en KG permanecen en gran medida inexploradas. En este artículo, presentamos FactCheck, un benchmark diseñado para evaluar LLMs en la validación de hechos de KG a través de tres dimensiones clave: (1) el conocimiento interno de los LLMs; (2) la evidencia externa mediante Generación Aumentada por Recuperación (RAG); y (3) el conocimiento agregado empleando una estrategia de consenso multi-modelo. Evaluamos LLMs de código abierto y comerciales en tres KG reales y diversos. FactCheck también incluye un conjunto de datos RAG con más de 2 millones de documentos específicamente adaptado para la validación de hechos en KG. Adicionalmente, ofrecemos una plataforma de exploración interactiva para analizar las decisiones de verificación. Los análisis experimentales demuestran que, si bien los LLMs arrojan resultados prometedores, aún no son lo suficientemente estables y confiables para ser utilizados en escenarios de validación de KG del mundo real. La integración de evidencia externa mediante métodos RAG produce un rendimiento fluctuante, ofreciendo mejoras inconsistentes frente a enfoques más simples, y conlleva mayores costos computacionales. De manera similar, las estrategias basadas en consenso multi-modelo no superan consistentemente a los modelos individuales, lo que subraya la falta de una solución universal. Estos hallazgos enfatizan aún más la necesidad de un benchmark como FactCheck para evaluar sistemáticamente e impulsar el progreso en esta tarea difícil pero crucial.
English
Knowledge Graphs (KGs) store structured factual knowledge by linking entities through relationships, crucial for many applications. These applications depend on the KG's factual accuracy, so verifying facts is essential, yet challenging. Expert manual verification is ideal but impractical on a large scale. Automated methods show promise but are not ready for real-world KGs. Large Language Models (LLMs) offer potential with their semantic understanding and knowledge access, yet their suitability and effectiveness for KG fact validation remain largely unexplored. In this paper, we introduce FactCheck, a benchmark designed to evaluate LLMs for KG fact validation across three key dimensions: (1) LLMs internal knowledge; (2) external evidence via Retrieval-Augmented Generation (RAG); and (3) aggregated knowledge employing a multi-model consensus strategy. We evaluated open-source and commercial LLMs on three diverse real-world KGs. FactCheck also includes a RAG dataset with 2+ million documents tailored for KG fact validation. Additionally, we offer an interactive exploration platform for analyzing verification decisions. The experimental analyses demonstrate that while LLMs yield promising results, they are still not sufficiently stable and reliable to be used in real-world KG validation scenarios. Integrating external evidence through RAG methods yields fluctuating performance, providing inconsistent improvements over more streamlined approaches -- at higher computational costs. Similarly, strategies based on multi-model consensus do not consistently outperform individual models, underscoring the lack of a one-fits-all solution. These findings further emphasize the need for a benchmark like FactCheck to systematically evaluate and drive progress on this difficult yet crucial task.
PDF41February 13, 2026