REFLEX: 스타일과 본질 분리를 통한 자가 정제 가능한 설명형 팩트 체크
REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance
November 25, 2025
저자: Chuyi Kong, Gao Wei, Jing Ma, Hongzhan Lin, Yaxin Fan
cs.AI
초록
소셜미디어에서 잘못된 정보의 확산은 공공의 신뢰를 위협하며, 정확한 판정과 해석 가능한 설명을 제공하는 자동화된 팩트체크 시스템의 필요성을 대두시키고 있습니다. 그러나 기존의 대규모 언어 모델(LLM) 기반 접근법은 외부 지식 원천에 과도하게 의존하여 상당한 지연 시간을 초래하고, 심지어 신뢰성, 해석 가능성 및 실시간 사용에至关重要的인 즉각적인 대응 능력을 저해할 수 있는 환각(hallucination) 현상을 유발하기도 합니다. 이러한 문제를 해결하기 위해 우리는 백본 모델의 내재적 지식을 활용하여 판정 정확도와 설명 품질을 모두 향상시키는 플러그 앤 플레이 방식의 자체 정제 패러다임인 REason-guided Fact-checking with Latent EXplanations(REFLEX)를 제안합니다. REFLEX는 팩트체크를 역할극 대화로 재구성하고 판정 예측과 설명 생성을 공동으로 학습합니다. 이 패러다임은 백본 모델과 그 미세조정(fine-tuned) 변형 모델 간의 대조적 활성화 쌍을 적응적으로 추출하여 스타일과 본질로 구성된 진실을 자연스럽게 분리하는 조정 벡터(steering vector)를 구성합니다. 이러한 활성화 수준의 신호는 추론을 안내하고 노이즈가 많은 설명을 억제하여 더 정확하고 효율적인 추론을 가능하게 합니다. 실제 데이터셋을 이용한 실험 결과, REFLEX는 단일 진실 방향으로만 조정하는 기존 방법들을 능가하며, 팩트체크 작업에서 인간도 알지 못하는 미묘한 진실을 다룰 때 전통적 접근법이 직면하는 어려움을 부각시켰습니다. 주목할 만하게도, 단 465개의 자체 정제된 훈련 샘플만으로 REFLEX는 최첨단 성능을 달성했습니다. 나아가, 설명 목적을 가지고 훈련된 모델은 그러한 목적이 없는 모델을 효과적으로 안내하여 최대 7.57%의 성능 향상을 가져올 수 있으며, 이는 내부 설명 신호가 사실 추론을 해석하고 향상시키는 이중 역할을 수행함을 보여줍니다.
English
The prevalence of misinformation on social media threatens public trust, demanding automated fact-checking systems that provide accurate verdicts with interpretable explanations. However, existing large language model-based (LLM-based) approaches often rely heavily on external knowledge sources, introducing substantial latency and even hallucinations that undermine reliability, interpretability, and responsiveness, which is crucial for real-time use. To address these challenges, we propose REason-guided Fact-checking with Latent EXplanations REFLEX paradigm, a plug-and-play, self-refining paradigm that leverages the internal knowledge in backbone model to improve both verdict accuracy and explanation quality. REFLEX reformulates fact-checking as a role-play dialogue and jointly trains verdict prediction and explanation generation. It adaptively extracts contrastive activation pairs between the backbone model and its fine-tuned variant to construct steering vectors that disentangle truth into style and substance naturally. These activation-level signals guide inference and suppress noisy explanations, enabling more faithful and efficient reasoning. Experiments on real-world datasets show that REFLEX outperforms previous methods that steer toward a single truth direction and underscores the challenge traditional approaches face when handling the subtle, human-unknown truth in fact-checking tasks. Remarkably, with only 465 self-refined training samples, RELFEX achieves state-of-the-art performance. Furthermore, models trained with explanatory objectives can effectively guide those without them, yielding up to a 7.57% improvement, highlighting that internal explanation signals play a dual role in both interpreting and enhancing factual reasoning.