ChatPaper.aiChatPaper

REFLEX: Самосовершенствующаяся объяснимая проверка фактов через разделение истины на стиль и суть

REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

November 25, 2025
Авторы: Chuyi Kong, Gao Wei, Jing Ma, Hongzhan Lin, Yaxin Fan
cs.AI

Аннотация

Распространение дезинформации в социальных сетях угрожает общественному доверию, что требует создания автоматизированных систем проверки фактов, способных предоставлять точные вердикты с интерпретируемыми объяснениями. Однако существующие подходы на основе больших языковых моделей (LLM) часто в значительной степени зависят от внешних источников знаний, что вносит существенную задержку и даже приводит к галлюцинациям, подрывающим надежность, интерпретируемость и оперативность, что критически важно для использования в реальном времени. Для решения этих проблем мы предлагаем парадигму REason-guided Fact-checking with Latent EXplanations (REFLEX) — самосовершенствующуюся парадигму типа «включи и работай», которая использует внутренние знания базовой модели для повышения как точности вердикта, так и качества объяснений. REFLEX переформулирует проверку фактов как диалог в форме ролевой игры и совместно обучает прогнозированию вердикта и генерации объяснений. Она адаптивно извлекает контрастные пары активации между базовой моделью и её доработанным вариантом для построения управляющих векторов, которые естественным образом разделяют истину на стиль и содержание. Эти сигналы на уровне активации направляют вывод и подавляют зашумленные объяснения, обеспечивая более достоверное и эффективное рассуждение. Эксперименты на реальных наборах данных показывают, что REFLEX превосходит предыдущие методы, направленные на единственный вектор истины, и подчеркивают сложность, с которой сталкиваются традиционные подходы при обработке тонкой, неизвестной человеку истины в задачах проверки фактов. Примечательно, что всего на 465 самосовершенствованных обучающих примерах REFLEX достигает наилучшей производительности. Кроме того, модели, обученные с объясняющими целями, могут эффективно направлять модели без таких целей, обеспечивая улучшение до 7,57%, что подчеркивает двойную роль внутренних объясняющих сигналов как в интерпретации, так и в усилении фактического рассуждения.
English
The prevalence of misinformation on social media threatens public trust, demanding automated fact-checking systems that provide accurate verdicts with interpretable explanations. However, existing large language model-based (LLM-based) approaches often rely heavily on external knowledge sources, introducing substantial latency and even hallucinations that undermine reliability, interpretability, and responsiveness, which is crucial for real-time use. To address these challenges, we propose REason-guided Fact-checking with Latent EXplanations REFLEX paradigm, a plug-and-play, self-refining paradigm that leverages the internal knowledge in backbone model to improve both verdict accuracy and explanation quality. REFLEX reformulates fact-checking as a role-play dialogue and jointly trains verdict prediction and explanation generation. It adaptively extracts contrastive activation pairs between the backbone model and its fine-tuned variant to construct steering vectors that disentangle truth into style and substance naturally. These activation-level signals guide inference and suppress noisy explanations, enabling more faithful and efficient reasoning. Experiments on real-world datasets show that REFLEX outperforms previous methods that steer toward a single truth direction and underscores the challenge traditional approaches face when handling the subtle, human-unknown truth in fact-checking tasks. Remarkably, with only 465 self-refined training samples, RELFEX achieves state-of-the-art performance. Furthermore, models trained with explanatory objectives can effectively guide those without them, yielding up to a 7.57% improvement, highlighting that internal explanation signals play a dual role in both interpreting and enhancing factual reasoning.
PDF01December 6, 2025