FaithLens: 충실도 환각 감지 및 설명
FaithLens: Detecting and Explaining Faithfulness Hallucination
December 23, 2025
저자: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
초록
대규모 언어 모델(LLM)의 출력이 충실도 환각을 포함하는지 인식하는 것은 검색 증강 생성 및 요약과 같은 실제 애플리케이션에서 중요합니다. 본 논문에서는 신뢰성을 향상시키기 위해 이진 예측과 이에 상응하는 설명을 함께 제공할 수 있는 비용 효율적이고 효과적인 충실도 환각 탐지 모델인 FaithLens를 소개합니다. 이를 위해 먼저 고급 LLM을 통해 설명이 포함된 훈련 데이터를 합성하고, 레이블 정확성, 설명 품질, 데이터 다양성을 보장하기 위해 잘 정의된 데이터 필터링 전략을 적용합니다. 이후, 잘 정제된 훈련 데이터로 모델을 미세 조정하여 콜드 스타트를 수행하고, 예측 정확성과 설명 품질에 대한 보상을 사용하는 규칙 기반 강화 학습을 통해 추가로 최적화합니다. 12가지 다양한 작업에 대한 결과는 8B 매개변수 FaithLens가 GPT-4.1 및 o1과 같은 고급 모델을 능가함을 보여줍니다. 또한 FaithLens는 높은 품질의 설명을 생성하여 신뢰성, 효율성 및 효과성의 독특한 균형을 제공합니다.
English
Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.