ChatPaper.aiChatPaper

FaithLens: Detecteren en Verklaren van Betrouwbaarheids-Hallucinaties

FaithLens: Detecting and Explaining Faithfulness Hallucination

December 23, 2025
Auteurs: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI

Samenvatting

Het herkennen of uitvoer van grote taalmodellen (LLM's) getrouwheidshallucinaties bevat, is cruciaal voor praktische toepassingen zoals retrieval-augmented generation en samenvatting. In dit artikel introduceren we FaithLens, een kostenefficiënt en effectief detectiemodel voor getrouwheidshallucinaties dat gezamenlijk binaire voorspellingen en bijbehorende verklaringen kan leveren om de betrouwbaarheid te verbeteren. Om dit te bereiken, synthetiseren we eerst trainingsgegevens met verklaringen via geavanceerde LLM's en passen we een goed gedefinieerde datafilterstrategie toe om de correctheid van labels, de kwaliteit van verklaringen en de diversiteit van gegevens te waarborgen. Vervolgens fine-tunen we het model op deze zorgvuldig samengestelde trainingsgegevens als koude start en optimaliseren we het verder met op regels gebaseerde reinforcement learning, waarbij we beloningen gebruiken voor zowel de correctheid van voorspellingen als de kwaliteit van verklaringen. Resultaten op 12 diverse taken tonen aan dat de 8B-parameter FaithLens geavanceerde modellen zoals GPT-4.1 en o3 overtreft. FaithLens kan ook hoogwaardige verklaringen produceren, wat een onderscheidende balans biedt tussen betrouwbaarheid, efficiëntie en effectiviteit.
English
Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.
PDF51December 25, 2025