REFLEX: Verificação de Fatos Explicável e Autoaprimorável através da Separação da Verdade em Estilo e Substância

Resumo

A prevalência de desinformação nas redes sociais ameaça a confiança pública, exigindo sistemas automatizados de verificação de factos que forneçam veredictos precisos com explicações interpretáveis. No entanto, as abordagens existentes baseadas em modelos de linguagem de grande escala (LLM) frequentemente dependem excessivamente de fontes externas de conhecimento, introduzindo uma latência substancial e até mesmo alucinações que comprometem a confiabilidade, a interpretabilidade e a capacidade de resposta, cruciais para uso em tempo real. Para enfrentar estes desafios, propomos o paradigma REFLEX (REason-guided Fact-checking with Latent EXplanations), um paradigma plug-and-play e autoaprimorante que aproveita o conhecimento interno do modelo base para melhorar tanto a precisão do veredicto quanto a qualidade da explicação. O REFLEX reformula a verificação de factos como um diálogo de role-play e treina conjuntamente a previsão do veredicto e a geração de explicações. Este extrai adaptativamente pares de ativação contrastantes entre o modelo base e a sua variante afinada para construir vetores de direção que separam a verdade em estilo e substância de forma natural. Estes sinais ao nível da ativação guiam a inferência e suprimem explicações ruidosas, permitindo um raciocínio mais fiel e eficiente. Experiências em conjuntos de dados do mundo real mostram que o REFLEX supera métodos anteriores que se orientam para uma única direção de verdade e salienta o desafio que as abordagens tradicionais enfrentam ao lidar com a verdade subtil e desconhecida pelo ser humano nas tarefas de verificação de factos. Notavelmente, com apenas 465 amostras de treino autoaprimoradas, o REFLEX atinge um desempenho de ponta. Além disso, modelos treinados com objetivos explicativos podem orientar eficazmente aqueles que os não possuem, resultando numa melhoria de até 7,57%, destacando que os sinais explicativos internos desempenham um duplo papel na interpretação e no aprimoramento do raciocínio factual.

English

The prevalence of misinformation on social media threatens public trust, demanding automated fact-checking systems that provide accurate verdicts with interpretable explanations. However, existing large language model-based (LLM-based) approaches often rely heavily on external knowledge sources, introducing substantial latency and even hallucinations that undermine reliability, interpretability, and responsiveness, which is crucial for real-time use. To address these challenges, we propose REason-guided Fact-checking with Latent EXplanations REFLEX paradigm, a plug-and-play, self-refining paradigm that leverages the internal knowledge in backbone model to improve both verdict accuracy and explanation quality. REFLEX reformulates fact-checking as a role-play dialogue and jointly trains verdict prediction and explanation generation. It adaptively extracts contrastive activation pairs between the backbone model and its fine-tuned variant to construct steering vectors that disentangle truth into style and substance naturally. These activation-level signals guide inference and suppress noisy explanations, enabling more faithful and efficient reasoning. Experiments on real-world datasets show that REFLEX outperforms previous methods that steer toward a single truth direction and underscores the challenge traditional approaches face when handling the subtle, human-unknown truth in fact-checking tasks. Remarkably, with only 465 self-refined training samples, RELFEX achieves state-of-the-art performance. Furthermore, models trained with explanatory objectives can effectively guide those without them, yielding up to a 7.57% improvement, highlighting that internal explanation signals play a dual role in both interpreting and enhancing factual reasoning.

REFLEX: Verificação de Fatos Explicável e Autoaprimorável através da Separação da Verdade em Estilo e Substância

REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

Resumo

Support