FaithLens: Detecção e Explicação de Alucinações de Fidelidade

Resumo

Reconhecer se as saídas de modelos de linguagem de grande escala (LLMs) contêm alucinações de fidelidade é crucial para aplicações do mundo real, por exemplo, geração aumentada por recuperação e sumarização. Neste artigo, apresentamos o FaithLens, um modelo de detecção de alucinações de fidelidade econômico e eficaz, que pode fornecer conjuntamente previsões binárias e explicações correspondentes para melhorar a confiabilidade. Para alcançar este objetivo, primeiro sintetizamos dados de treinamento com explicações via LLMs avançados e aplicamos uma estratégia de filtragem de dados bem definida para garantir a correção do rótulo, a qualidade da explicação e a diversidade dos dados. Subsequentemente, afinamos o modelo nestes dados de treinamento bem curados como um início frio e otimizamo-lo ainda mais com aprendizagem por reforço baseada em regras, utilizando recompensas tanto para a correção da previsão como para a qualidade da explicação. Os resultados em 12 tarefas diversas mostram que o FaithLens, com 8B de parâmetros, supera modelos avançados como o GPT-4.1 e o o3. Além disso, o FaithLens pode produzir explicações de alta qualidade, oferecendo um equilíbrio distintivo entre confiabilidade, eficiência e eficácia.

English

Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.

FaithLens: Detecção e Explicação de Alucinações de Fidelidade

FaithLens: Detecting and Explaining Faithfulness Hallucination

Resumo

Support