REFLEX : Vérification des faits explicable et auto-affinée par dissociation de la vérité en style et en substance
REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance
November 25, 2025
papers.authors: Chuyi Kong, Gao Wei, Jing Ma, Hongzhan Lin, Yaxin Fan
cs.AI
papers.abstract
La prévalence de la désinformation sur les médias sociaux menace la confiance du public, exigeant des systèmes de vérification automatisée qui fournissent des verdicts précis avec des explications interprétables. Cependant, les approches existantes basées sur les grands modèles de langage (LLM) reposent souvent massivement sur des sources de connaissances externes, introduisant une latence substantielle et même des hallucinations qui compromettent la fiabilité, l'interprétabilité et la réactivité, pourtant cruciales pour un usage en temps réel. Pour relever ces défis, nous proposons le paradigme REFLEX (REason-guided Fact-checking with Latent EXplanations), un paradigme plug-and-play et auto-affiné qui exploite les connaissances internes du modèle de base pour améliorer à la fois la précision du verdict et la qualité de l'explication. REFLEX reformule la vérification des faits comme un dialogue de jeu de rôle et entraîne conjointement la prédiction du verdict et la génération d'explications. Il extrait de manière adaptative des paires d'activations contrastives entre le modèle de base et sa variante fine-tunée pour construire des vecteurs de pilotage qui dissocient naturellement la vérité en style et en substance. Ces signaux au niveau de l'activation guident l'inférence et suppriment les explications bruitées, permettant un raisonnement plus fidèle et efficace. Les expériences sur des jeux de données réels montrent que REFLEX surpasse les méthodes antérieures qui se dirigent vers une seule direction de vérité et souligne le défi auquel sont confrontées les approches traditionnelles pour traiter la vérité subtile et inconnue des humains dans les tâches de vérification. Fait remarquable, avec seulement 465 échantillons d'entraînement auto-affinés, REFLEX atteint des performances de pointe. De plus, les modèles entraînés avec des objectifs explicatifs peuvent guider efficacement ceux qui en sont dépourvus, permettant une amélioration allant jusqu'à 7,57 %, soulignant que les signaux explicatifs internes jouent un double rôle à la fois dans l'interprétation et l'amélioration du raisonnement factuel.
English
The prevalence of misinformation on social media threatens public trust, demanding automated fact-checking systems that provide accurate verdicts with interpretable explanations. However, existing large language model-based (LLM-based) approaches often rely heavily on external knowledge sources, introducing substantial latency and even hallucinations that undermine reliability, interpretability, and responsiveness, which is crucial for real-time use. To address these challenges, we propose REason-guided Fact-checking with Latent EXplanations REFLEX paradigm, a plug-and-play, self-refining paradigm that leverages the internal knowledge in backbone model to improve both verdict accuracy and explanation quality. REFLEX reformulates fact-checking as a role-play dialogue and jointly trains verdict prediction and explanation generation. It adaptively extracts contrastive activation pairs between the backbone model and its fine-tuned variant to construct steering vectors that disentangle truth into style and substance naturally. These activation-level signals guide inference and suppress noisy explanations, enabling more faithful and efficient reasoning. Experiments on real-world datasets show that REFLEX outperforms previous methods that steer toward a single truth direction and underscores the challenge traditional approaches face when handling the subtle, human-unknown truth in fact-checking tasks. Remarkably, with only 465 self-refined training samples, RELFEX achieves state-of-the-art performance. Furthermore, models trained with explanatory objectives can effectively guide those without them, yielding up to a 7.57% improvement, highlighting that internal explanation signals play a dual role in both interpreting and enhancing factual reasoning.