ChatPaper.aiChatPaper

Aprendizaje para el Razonamiento en la Detección de Intervalos de Alucinación

Learning to Reason for Hallucination Span Detection

October 2, 2025
Autores: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo generan alucinaciones: contenido no respaldado que socava la fiabilidad. Si bien la mayoría de los trabajos previos abordan la detección de alucinaciones como una tarea binaria, muchas aplicaciones del mundo real requieren identificar segmentos alucinados, lo cual es un proceso de toma de decisiones de múltiples pasos. Esto plantea naturalmente la pregunta de si el razonamiento explícito puede ayudar en la compleja tarea de detectar segmentos de alucinación. Para responder a esta pregunta, primero evaluamos modelos preentrenados con y sin razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés), y demostramos que el razonamiento CoT tiene el potencial de generar al menos una respuesta correcta cuando se muestrea múltiples veces. Motivados por esto, proponemos RL4HS, un marco de aprendizaje por refuerzo que incentiva el razonamiento con una función de recompensa a nivel de segmento. RL4HS se basa en la Optimización de Política Relativa de Grupo e introduce la Optimización de Política Consciente de Clases para mitigar el problema de desequilibrio en las recompensas. Los experimentos en el benchmark RAGTruth (resumen, respuesta a preguntas, datos a texto) muestran que RL4HS supera a los modelos de razonamiento preentrenados y al ajuste fino supervisado, demostrando la necesidad del aprendizaje por refuerzo con recompensas a nivel de segmento para detectar segmentos de alucinación.
English
Large language models (LLMs) often generate hallucinations -- unsupported content that undermines reliability. While most prior works frame hallucination detection as a binary task, many real-world applications require identifying hallucinated spans, which is a multi-step decision making process. This naturally raises the question of whether explicit reasoning can help the complex task of detecting hallucination spans. To answer this question, we first evaluate pretrained models with and without Chain-of-Thought (CoT) reasoning, and show that CoT reasoning has the potential to generate at least one correct answer when sampled multiple times. Motivated by this, we propose RL4HS, a reinforcement learning framework that incentivizes reasoning with a span-level reward function. RL4HS builds on Group Relative Policy Optimization and introduces Class-Aware Policy Optimization to mitigate reward imbalance issue. Experiments on the RAGTruth benchmark (summarization, question answering, data-to-text) show that RL4HS surpasses pretrained reasoning models and supervised fine-tuning, demonstrating the necessity of reinforcement learning with span-level rewards for detecting hallucination spans.
PDF184October 3, 2025