FaithLens: Erkennung und Erklärung von Treue-Halluzinationen
FaithLens: Detecting and Explaining Faithfulness Hallucination
December 23, 2025
papers.authors: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
papers.abstract
Die Erkennung von Treue-Halluzinationen in den Ausgaben großer Sprachmodelle (LLMs) ist für praktische Anwendungen wie retrieval-augmentierte Generierung und Textzusammenfassung von entscheidender Bedeutung. In diesem Artikel stellen wir FaithLens vor, ein kosteneffizientes und effektives Modell zur Erkennung von Treue-Halluzinationen, das gleichzeitig binäre Vorhersagen und entsprechende Erklärungen liefern kann, um die Vertrauenswürdigkeit zu verbessern. Um dies zu erreichen, synthetisieren wir zunächst Trainingsdaten mit Erklärungen mithilfe fortschrittlicher LLMs und wenden eine wohl definierte Datenfilterstrategie an, um die Korrektheit der Labels, die Qualität der Erklärungen und die Datenvielfalt sicherzustellen. Anschließend feintunen wir das Modell auf diesen sorgfältig kuratierten Trainingsdaten als Kaltstart und optimieren es weiter mit regelbasiertem bestärkendem Lernen, wobei Belohnungen sowohl für die Korrektheit der Vorhersage als auch für die Erklärungsqualität vergeben werden. Ergebnisse aus 12 verschiedenen Aufgaben zeigen, dass das 8-Milliarden-Parameter-Modell FaithLens fortschrittliche Modelle wie GPT-4.1 und o3 übertrifft. Zudem kann FaithLens hochwertige Erklärungen produzieren und bietet damit eine einzigartige Balance aus Vertrauenswürdigkeit, Effizienz und Effektivität.
English
Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.