REFLEX: Verifica dei Fatti Auto-Migliorante ed Esplicabile tramite la Separazione della Verità in Stile e Sostanza
REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance
November 25, 2025
Autori: Chuyi Kong, Gao Wei, Jing Ma, Hongzhan Lin, Yaxin Fan
cs.AI
Abstract
La diffusione della disinformazione sui social media minaccia la fiducia pubblica, richiedendo sistemi automatizzati di fact-checking in grado di fornire verdettici accurati con spiegazioni interpretabili. Tuttavia, gli approcci esistenti basati su grandi modelli linguistici (LLM) dipendono spesso in modo significativo da fonti di conoscenza esterne, introducendo una latenza sostanziale e persino allucinazioni che compromettono l'affidabilità, l'interpretabilità e la reattività, elementi cruciali per un utilizzo in tempo reale. Per affrontare queste sfide, proponiamo il paradigma REFLEX (REason-guided Fact-checking with Latent EXplanations), un paradigma plug-and-play e auto-migliorante che sfrutta la conoscenza interna del modello di base per migliorare sia l'accuratezza del verdetto che la qualità della spiegazione. REFLEX riformula il fact-checking come un dialogo di ruolo e addestra congiuntamente la previsione del verdetto e la generazione della spiegazione. Estrae in modo adattivo coppie di attivazione contrastive tra il modello di base e la sua variante fine-tuned per costruire vettori di steering che separano naturalmente la verità in stile e sostanza. Questi segnali a livello di attivazione guidano l'inferenza e sopprimono le spiegazioni rumorose, consentendo un ragionamento più fedele ed efficiente. Esperimenti su dataset del mondo reale mostrano che REFLEX supera i metodi precedenti che si orientano verso una singola direzione di verità e sottolinea la sfida che gli approcci tradizionali affrontano quando gestiscono la verità sottile e sconosciuta all'uomo nei compiti di fact-checking. Notevolmente, con soli 465 campioni di addestramento auto-migliorati, REFLEX raggiunge prestazioni all'avanguardia. Inoltre, i modelli addestrati con obiettivi esplicativi possono guidare efficacemente quelli che ne sono privi, ottenendo un miglioramento fino al 7,57%, evidenziando come i segnali esplicativi interni svolgano un duplice ruolo nell'interpretare e potenziare il ragionamento fattuale.
English
The prevalence of misinformation on social media threatens public trust, demanding automated fact-checking systems that provide accurate verdicts with interpretable explanations. However, existing large language model-based (LLM-based) approaches often rely heavily on external knowledge sources, introducing substantial latency and even hallucinations that undermine reliability, interpretability, and responsiveness, which is crucial for real-time use. To address these challenges, we propose REason-guided Fact-checking with Latent EXplanations REFLEX paradigm, a plug-and-play, self-refining paradigm that leverages the internal knowledge in backbone model to improve both verdict accuracy and explanation quality. REFLEX reformulates fact-checking as a role-play dialogue and jointly trains verdict prediction and explanation generation. It adaptively extracts contrastive activation pairs between the backbone model and its fine-tuned variant to construct steering vectors that disentangle truth into style and substance naturally. These activation-level signals guide inference and suppress noisy explanations, enabling more faithful and efficient reasoning. Experiments on real-world datasets show that REFLEX outperforms previous methods that steer toward a single truth direction and underscores the challenge traditional approaches face when handling the subtle, human-unknown truth in fact-checking tasks. Remarkably, with only 465 self-refined training samples, RELFEX achieves state-of-the-art performance. Furthermore, models trained with explanatory objectives can effectively guide those without them, yielding up to a 7.57% improvement, highlighting that internal explanation signals play a dual role in both interpreting and enhancing factual reasoning.