Aprendizado para Raciocínio na Detecção de Intervalos de Alucinação
Learning to Reason for Hallucination Span Detection
October 2, 2025
Autores: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) frequentemente geram alucinações — conteúdo não fundamentado que compromete a confiabilidade. Embora a maioria dos trabalhos anteriores enquadre a detecção de alucinações como uma tarefa binária, muitas aplicações do mundo real exigem a identificação de trechos alucinados, o que é um processo de tomada de decisão em múltiplas etapas. Isso naturalmente levanta a questão de se o raciocínio explícito pode auxiliar na complexa tarefa de detectar trechos de alucinação. Para responder a essa pergunta, primeiro avaliamos modelos pré-treinados com e sem raciocínio em cadeia de pensamento (Chain-of-Thought, CoT), e mostramos que o raciocínio CoT tem o potencial de gerar pelo menos uma resposta correta quando amostrado várias vezes. Motivados por isso, propomos o RL4HS, um framework de aprendizado por reforço que incentiva o raciocínio com uma função de recompensa em nível de trecho. O RL4HS se baseia na Otimização de Política Relativa em Grupo e introduz a Otimização de Política Consciente de Classe para mitigar o problema de desequilíbrio de recompensas. Experimentos no benchmark RAGTruth (sumarização, resposta a perguntas, dados para texto) mostram que o RL4HS supera modelos de raciocínio pré-treinados e ajuste supervisionado, demonstrando a necessidade do aprendizado por reforço com recompensas em nível de trecho para detectar trechos de alucinação.
English
Large language models (LLMs) often generate hallucinations -- unsupported
content that undermines reliability. While most prior works frame hallucination
detection as a binary task, many real-world applications require identifying
hallucinated spans, which is a multi-step decision making process. This
naturally raises the question of whether explicit reasoning can help the
complex task of detecting hallucination spans. To answer this question, we
first evaluate pretrained models with and without Chain-of-Thought (CoT)
reasoning, and show that CoT reasoning has the potential to generate at least
one correct answer when sampled multiple times. Motivated by this, we propose
RL4HS, a reinforcement learning framework that incentivizes reasoning with a
span-level reward function. RL4HS builds on Group Relative Policy Optimization
and introduces Class-Aware Policy Optimization to mitigate reward imbalance
issue. Experiments on the RAGTruth benchmark (summarization, question
answering, data-to-text) show that RL4HS surpasses pretrained reasoning models
and supervised fine-tuning, demonstrating the necessity of reinforcement
learning with span-level rewards for detecting hallucination spans.