ChatPaper.aiChatPaper

FaithLens: Detección y Explicación de Alucinaciones de Fidelidad

FaithLens: Detecting and Explaining Faithfulness Hallucination

December 23, 2025
Autores: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI

Resumen

Determinar si las salidas de los modelos de lenguaje de gran tamaño (LLM) contienen alucinaciones de falta de fidelidad es crucial para aplicaciones del mundo real, como la generación aumentada por recuperación y la generación de resúmenes. En este artículo, presentamos FaithLens, un modelo de detección de alucinaciones de fidelidad eficiente en costos y efectivo, que puede proporcionar conjuntamente predicciones binarias y las explicaciones correspondientes para mejorar la confiabilidad. Para lograrlo, primero sintetizamos datos de entrenamiento con explicaciones mediante LLMs avanzados y aplicamos una estrategia de filtrado de datos bien definida para garantizar la corrección de las etiquetas, la calidad de las explicaciones y la diversidad de los datos. Posteriormente, ajustamos el modelo con estos datos de entrenamiento cuidadosamente seleccionados como un inicio en frío y lo optimizamos aún más mediante aprendizaje por refuerzo basado en reglas, utilizando recompensas tanto por la corrección de la predicción como por la calidad de la explicación. Los resultados en 12 tareas diversas muestran que FaithLens, con 8B de parámetros, supera a modelos avanzados como GPT-4.1 y o3. Además, FaithLens puede producir explicaciones de alta calidad, ofreciendo un equilibrio distintivo entre confiabilidad, eficiencia y efectividad.
English
Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.
PDF51December 25, 2025