FaithLens: Обнаружение и объяснение галлюцинаций верности
FaithLens: Detecting and Explaining Faithfulness Hallucination
December 23, 2025
Авторы: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
Аннотация
Определение наличия нарушений фактической достоверности (галлюцинаций) в выходных данных больших языковых моделей (БЯМ) является критически важным для практических применений, таких как генерация с использованием поиска и автоматическое реферирование. В данной статье мы представляем FaithLens — экономичную и эффективную модель для детектирования нарушений фактической достоверности, которая способна совместно предоставлять бинарные прогнозы и соответствующие объяснения для повышения надежности. Для достижения этой цели мы сначала синтезируем обучающие данные с объяснениями с помощью продвинутых БЯМ и применяем тщательно определенную стратегию фильтрации данных для обеспечения корректности меток, качества объяснений и разнообразия данных. Затем мы выполняем тонкую настройку модели на этих тщательно отобранных данных в качестве "холодного старта" и дополнительно оптимизируем ее с помощью основанного на правилах обучения с подкреплением, используя вознаграждения как за корректность прогноза, так и за качество объяснений. Результаты на 12 различных задачах показывают, что FaithLens с 8 миллиардами параметров превосходит передовые модели, такие как GPT-4.1 и o3. Кроме того, FaithLens способен генерировать высококачественные объяснения, обеспечивая уникальный баланс надежности, эффективности и производительности.
English
Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.