ChatPaper.aiChatPaper

REFLEX:スタイルと本質の分離による真実の自己洗練型説明可能ファクトチェック

REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

November 25, 2025
著者: Chuyi Kong, Gao Wei, Jing Ma, Hongzhan Lin, Yaxin Fan
cs.AI

要旨

ソーシャルメディア上の誤情報の蔓延は社会的信頼を脅かしており、正確な判定と解釈可能な説明を提供する自動ファクトチェックシステムが求められている。しかし、既存の大規模言語モデル(LLM)ベースの手法は外部知識源への依存度が高く、大幅な遅延や信頼性・解釈可能性・応答性を損なう幻覚現象を引き起こし、リアルタイム活用の妨げとなっている。これらの課題解決に向け、我々は基盤モデルの内部知識を活用して判定精度と説明品質を同時に改善するプラグアンドプレイ型自己洗練パラダイム「REason-guided Fact-checking with Latent EXplanations(REFLEX)」を提案する。REFLEXはファクトチェックをロールプレイ対話として再定義し、判定予測と説明生成を共同で学習する。基盤モデルとそのファインチューニング版の間で適応的に抽出した対照的活性化ペアにより、真実を様式と実質に自然に分離する操舵ベクトルを構築する。これらの活性化レベルの信号は推論を誘導しノイズの多い説明を抑制することで、より忠実で効率的な推論を実現する。実世界データセットを用いた実験では、REFLEXが単一の真実方向へ誘導する従来手法を凌駕し、ファクトチェック課題において人間も知り得ない微妙な真実を扱う際の伝統的アプローチの困難性を浮き彫りにした。特筆すべきは、自己洗練した学習サンプル465件のみでRELFEXが最高性能を達成した点である。さらに、説明目的で訓練されたモデルは説明機能を持たないモデルを効果的に誘導し、最大7.57%の性能向上をもたらすことから、内部的な説明信号が事実推論の解釈と強化の二重の役割を果たすことが明らかとなった。
English
The prevalence of misinformation on social media threatens public trust, demanding automated fact-checking systems that provide accurate verdicts with interpretable explanations. However, existing large language model-based (LLM-based) approaches often rely heavily on external knowledge sources, introducing substantial latency and even hallucinations that undermine reliability, interpretability, and responsiveness, which is crucial for real-time use. To address these challenges, we propose REason-guided Fact-checking with Latent EXplanations REFLEX paradigm, a plug-and-play, self-refining paradigm that leverages the internal knowledge in backbone model to improve both verdict accuracy and explanation quality. REFLEX reformulates fact-checking as a role-play dialogue and jointly trains verdict prediction and explanation generation. It adaptively extracts contrastive activation pairs between the backbone model and its fine-tuned variant to construct steering vectors that disentangle truth into style and substance naturally. These activation-level signals guide inference and suppress noisy explanations, enabling more faithful and efficient reasoning. Experiments on real-world datasets show that REFLEX outperforms previous methods that steer toward a single truth direction and underscores the challenge traditional approaches face when handling the subtle, human-unknown truth in fact-checking tasks. Remarkably, with only 465 self-refined training samples, RELFEX achieves state-of-the-art performance. Furthermore, models trained with explanatory objectives can effectively guide those without them, yielding up to a 7.57% improvement, highlighting that internal explanation signals play a dual role in both interpreting and enhancing factual reasoning.
PDF01December 6, 2025