ChatPaper.aiChatPaper

FaithLens : Détection et Explication des Hallucinations de Fidélité

FaithLens: Detecting and Explaining Faithfulness Hallucination

December 23, 2025
papers.authors: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI

papers.abstract

La détection des hallucinations de fidélité dans les sorties des grands modèles de langage (LLM) est cruciale pour les applications réelles, telles que la génération augmentée par retrieval et la synthèse de texte. Dans cet article, nous présentons FaithLens, un modèle de détection des hallucinations de fidélité économique et efficace, capable de fournir conjointement des prédictions binaires et les explications correspondantes pour améliorer la fiabilité. Pour y parvenir, nous synthétisons d'abord des données d'entraînement avec explications via des LLM avancés, et appliquons une stratégie de filtrage rigoureuse pour garantir l'exactitude des étiquettes, la qualité des explications et la diversité des données. Ensuite, nous affinons le modèle sur ces données soigneusement préparées pour un démarrage à froid, puis l'optimisons davantage par apprentissage par renforcement basé sur des règles, en utilisant des récompenses pour la justesse des prédictions et la qualité des explications. Les résultats sur 12 tâches variées montrent que FaithLens (8B paramètres) surpasse des modèles avancés comme GPT-4 et o3. De plus, FaithLens produit des explications de haute qualité, offrant un équilibre distinct entre fiabilité, efficacité et performance.
English
Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.
PDF51December 25, 2025