FaithLens: 忠実性の幻覚の検出と説明
FaithLens: Detecting and Explaining Faithfulness Hallucination
December 23, 2025
著者: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
要旨
大規模言語モデル(LLMs)の出力が忠実性に欠ける虚構(Faithfulness Hallucination)を含むかどうかを認識することは、検索拡張生成や要約など、現実世界の応用において極めて重要である。本論文では、信頼性向上のため、二値予測と対応する説明を共同で提供する、コスト効率が高く効果的な忠実性虚構検出モデル「FaithLens」を提案する。これを実現するため、我々はまず高度なLLMsを用いて説明付きの訓練データを合成し、ラベルの正確性、説明の質、データの多様性を保証するために厳格なデータフィルタリング戦略を適用する。続いて、これらの厳選された訓練データでモデルをファインチューニングしてコールドスタートし、予測の正確性と説明の質の両方を報酬とするルールベースの強化学習によってさらに最適化する。12の多様なタスクにおける結果は、80億パラメータのFaithLensがGPT-4.1やo3などの高度なモデルを凌駕することを示している。また、FaithLensは高品質な説明を生成でき、信頼性、効率性、有効性の独自のバランスを実現する。
English
Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.