Apprentissage du raisonnement pour la détection des étendues d'hallucination
Learning to Reason for Hallucination Span Detection
October 2, 2025
papers.authors: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) génèrent souvent des hallucinations — des contenus non étayés qui compromettent la fiabilité. Bien que la plupart des travaux antérieurs abordent la détection des hallucinations comme une tâche binaire, de nombreuses applications réelles nécessitent l'identification de segments hallucinés, ce qui constitue un processus de prise de décision en plusieurs étapes. Cela soulève naturellement la question de savoir si un raisonnement explicite peut faciliter la tâche complexe de détection des segments hallucinés. Pour répondre à cette question, nous évaluons d'abord des modèles pré-entraînés avec et sans raisonnement en chaîne de pensée (CoT), et montrons que le raisonnement CoT a le potentiel de générer au moins une réponse correcte lorsqu'il est échantillonné plusieurs fois. Motivés par cela, nous proposons RL4HS, un cadre d'apprentissage par renforcement qui encourage le raisonnement avec une fonction de récompense au niveau des segments. RL4HS s'appuie sur l'optimisation de politique relative par groupe et introduit l'optimisation de politique consciente des classes pour atténuer le problème de déséquilibre des récompenses. Les expériences sur le benchmark RAGTruth (résumé, réponse à des questions, données-à-texte) montrent que RL4HS surpasse les modèles de raisonnement pré-entraînés et l'ajustement supervisé, démontrant la nécessité de l'apprentissage par renforcement avec des récompenses au niveau des segments pour détecter les segments hallucinés.
English
Large language models (LLMs) often generate hallucinations -- unsupported
content that undermines reliability. While most prior works frame hallucination
detection as a binary task, many real-world applications require identifying
hallucinated spans, which is a multi-step decision making process. This
naturally raises the question of whether explicit reasoning can help the
complex task of detecting hallucination spans. To answer this question, we
first evaluate pretrained models with and without Chain-of-Thought (CoT)
reasoning, and show that CoT reasoning has the potential to generate at least
one correct answer when sampled multiple times. Motivated by this, we propose
RL4HS, a reinforcement learning framework that incentivizes reasoning with a
span-level reward function. RL4HS builds on Group Relative Policy Optimization
and introduces Class-Aware Policy Optimization to mitigate reward imbalance
issue. Experiments on the RAGTruth benchmark (summarization, question
answering, data-to-text) show that RL4HS surpasses pretrained reasoning models
and supervised fine-tuning, demonstrating the necessity of reinforcement
learning with span-level rewards for detecting hallucination spans.