ChatPaper.aiChatPaper

Vers un Bilan Étape par Étape Complet des Grands Modèles de Langage dans la Vérification des Faits

Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking

January 6, 2026
papers.authors: Hongzhan Lin, Zixin Chen, Zhiqi Shen, Ziyang Luo, Zhen Ye, Jing Ma, Tat-Seng Chua, Guandong Xu
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans les systèmes réels de vérification des faits, mais les évaluations existantes se concentrent principalement sur la vérification des affirmations et négligent le processus complet de vérification, incluant l'extraction des affirmations et la collecte des preuves. Cette focalisation étroite empêche les benchmarks actuels de révéler les échecs de raisonnement systématique, les angles morts factuels et les limites de robustesse des LLM modernes. Pour combler cette lacune, nous présentons FactArena, un cadre d'évaluation de style arène entièrement automatisé qui réalise un benchmarking complet et par étapes des LLM sur l'ensemble du pipeline de vérification des faits. FactArena intègre trois composants clés : (i) un processus de vérification des faits piloté par LLM qui standardise la décomposition des affirmations, la collecte de preuves via des interactions outillées, et la prédiction de verdicts basée sur des justifications ; (ii) un mécanisme de jugement de style arène guidé par des référentiels consolidés pour garantir des comparaisons par paires impartiales et cohérentes entre des agents évaluateurs hétérogènes ; et (iii) un module d'évolution des affirmations piloté par l'arène qui génère de manière adaptative des affirmations plus difficiles et sémantiquement contrôlées pour tester la robustesse factuelle des LLM au-delà des données initiales fixes. Sur 16 LLM de pointe couvrant sept familles de modèles, FactArena produit des classements stables et interprétables. Nos analyses révèlent en outre des écarts significatifs entre la précision statique de vérification des affirmations et la compétence de vérification des faits de bout en bout, soulignant la nécessité d'une évaluation holistique. Le cadre proposé offre un paradigme évolutif et fiable pour diagnostiquer le raisonnement factuel des LLM, orienter le développement futur des modèles et faire progresser le déploiement fiable des LLM dans les applications de vérification des faits critiques pour la sécurité.
English
Large Language Models (LLMs) are increasingly deployed in real-world fact-checking systems, yet existing evaluations focus predominantly on claim verification and overlook the broader fact-checking workflow, including claim extraction and evidence retrieval. This narrow focus prevents current benchmarks from revealing systematic reasoning failures, factual blind spots, and robustness limitations of modern LLMs. To bridge this gap, we present FactArena, a fully automated arena-style evaluation framework that conducts comprehensive, stage-wise benchmarking of LLMs across the complete fact-checking pipeline. FactArena integrates three key components: (i) an LLM-driven fact-checking process that standardizes claim decomposition, evidence retrieval via tool-augmented interactions, and justification-based verdict prediction; (ii) an arena-styled judgment mechanism guided by consolidated reference guidelines to ensure unbiased and consistent pairwise comparisons across heterogeneous judge agents; and (iii) an arena-driven claim-evolution module that adaptively generates more challenging and semantically controlled claims to probe LLMs' factual robustness beyond fixed seed data. Across 16 state-of-the-art LLMs spanning seven model families, FactArena produces stable and interpretable rankings. Our analyses further reveal significant discrepancies between static claim-verification accuracy and end-to-end fact-checking competence, highlighting the necessity of holistic evaluation. The proposed framework offers a scalable and trustworthy paradigm for diagnosing LLMs' factual reasoning, guiding future model development, and advancing the reliable deployment of LLMs in safety-critical fact-checking applications.
PDF11January 15, 2026