ChatPaper.aiChatPaper

FaithLens: Rilevamento e Spiegazione delle Allucinazioni di Fedeltà

FaithLens: Detecting and Explaining Faithfulness Hallucination

December 23, 2025
Autori: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI

Abstract

Riconoscere se gli output dei grandi modelli linguistici (LLM) contengono allucinazioni di fedeltà è cruciale per applicazioni nel mondo reale, come la generazione aumentata dal recupero di informazioni e la summarizzazione. In questo articolo, introduciamo FaithLens, un modello di rilevamento delle allucinazioni di fedeltà efficiente in termini di costi ed efficace, in grado di fornire congiuntamente previsioni binarie e le relative spiegazioni per migliorare l'affidabilità. Per raggiungere questo obiettivo, sintetizziamo innanzitutto dati di addestramento con spiegazioni tramite LLM avanzati e applichiamo una strategia di filtraggio dei dati ben definita per garantire la correttezza delle etichette, la qualità delle spiegazioni e la diversità dei dati. Successivamente, addestriamo il modello su questi dati di addestramento accuratamente selezionati come avvio a freddo e lo ottimizziamo ulteriormente con l'apprendimento per rinforzo basato su regole, utilizzando ricompense sia per la correttezza della previsione che per la qualità della spiegazione. I risultati su 12 task diversi mostrano che FaithLens, con i suoi 8 miliardi di parametri, supera modelli avanzati come GPT-4.1 e o3. Inoltre, FaithLens è in grado di produrre spiegazioni di alta qualità, offrendo un equilibrio distintivo tra affidabilità, efficienza ed efficacia.
English
Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.
PDF51December 25, 2025