ChatPaper.aiChatPaper

Hacia una Evaluación Integral por Etapas de los Modelos de Lenguaje Grande en la Verificación de Hechos

Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking

January 6, 2026
Autores: Hongzhan Lin, Zixin Chen, Zhiqi Shen, Ziyang Luo, Zhen Ye, Jing Ma, Tat-Seng Chua, Guandong Xu
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLM) se despliegan cada vez más en sistemas de verificación de hechos del mundo real; sin embargo, las evaluaciones existentes se centran predominantemente en la verificación de afirmaciones y pasan por alto el flujo de trabajo más amplio de la verificación, que incluye la extracción de afirmaciones y la recuperación de evidencias. Este enfoque limitado impide que los puntos de referencia actuales revelen fallos sistemáticos de razonamiento, puntos ciegos factuales y limitaciones de robustez de los LLM modernos. Para cerrar esta brecha, presentamos FactArena, un marco de evaluación automatizado de estilo arena que realiza una evaluación comparativa integral y por etapas de los LLM en todo el proceso de verificación de hechos. FactArena integra tres componentes clave: (i) un proceso de verificación de hechos impulsado por LLM que estandariza la descomposición de afirmaciones, la recuperación de evidencias mediante interacciones aumentadas con herramientas y la predicción de veredictos basada en justificaciones; (ii) un mecanismo de juicio de estilo arena guiado por directrices de referencia consolidadas para garantizar comparaciones por pares imparciales y consistentes entre agentes jueces heterogéneos; y (iii) un módulo de evolución de afirmaciones impulsado por la arena que genera de forma adaptativa afirmaciones más desafiantes y semánticamente controladas para sondear la robustez factual de los LLM más allá de los datos de origen fijos. En 16 LLM de vanguardia que abarcan siete familias de modelos, FactArena produce clasificaciones estables e interpretables. Nuestros análisis revelan además discrepancias significativas entre la precisión estática en la verificación de afirmaciones y la competencia en la verificación de hechos de extremo a extremo, destacando la necesidad de una evaluación holística. El marco propuesto ofrece un paradigma escalable y confiable para diagnosticar el razonamiento factual de los LLM, guiar el desarrollo futuro de modelos y avanzar en el despliegue confiable de LLM en aplicaciones de verificación de hechos críticas para la seguridad.
English
Large Language Models (LLMs) are increasingly deployed in real-world fact-checking systems, yet existing evaluations focus predominantly on claim verification and overlook the broader fact-checking workflow, including claim extraction and evidence retrieval. This narrow focus prevents current benchmarks from revealing systematic reasoning failures, factual blind spots, and robustness limitations of modern LLMs. To bridge this gap, we present FactArena, a fully automated arena-style evaluation framework that conducts comprehensive, stage-wise benchmarking of LLMs across the complete fact-checking pipeline. FactArena integrates three key components: (i) an LLM-driven fact-checking process that standardizes claim decomposition, evidence retrieval via tool-augmented interactions, and justification-based verdict prediction; (ii) an arena-styled judgment mechanism guided by consolidated reference guidelines to ensure unbiased and consistent pairwise comparisons across heterogeneous judge agents; and (iii) an arena-driven claim-evolution module that adaptively generates more challenging and semantically controlled claims to probe LLMs' factual robustness beyond fixed seed data. Across 16 state-of-the-art LLMs spanning seven model families, FactArena produces stable and interpretable rankings. Our analyses further reveal significant discrepancies between static claim-verification accuracy and end-to-end fact-checking competence, highlighting the necessity of holistic evaluation. The proposed framework offers a scalable and trustworthy paradigm for diagnosing LLMs' factual reasoning, guiding future model development, and advancing the reliable deployment of LLMs in safety-critical fact-checking applications.
PDF11January 15, 2026