Apprentissage du raisonnement pour la détection des étendues d'hallucination

papers.abstract

Les grands modèles de langage (LLMs) génèrent souvent des hallucinations — des contenus non étayés qui compromettent la fiabilité. Bien que la plupart des travaux antérieurs abordent la détection des hallucinations comme une tâche binaire, de nombreuses applications réelles nécessitent l'identification de segments hallucinés, ce qui constitue un processus de prise de décision en plusieurs étapes. Cela soulève naturellement la question de savoir si un raisonnement explicite peut faciliter la tâche complexe de détection des segments hallucinés. Pour répondre à cette question, nous évaluons d'abord des modèles pré-entraînés avec et sans raisonnement en chaîne de pensée (CoT), et montrons que le raisonnement CoT a le potentiel de générer au moins une réponse correcte lorsqu'il est échantillonné plusieurs fois. Motivés par cela, nous proposons RL4HS, un cadre d'apprentissage par renforcement qui encourage le raisonnement avec une fonction de récompense au niveau des segments. RL4HS s'appuie sur l'optimisation de politique relative par groupe et introduit l'optimisation de politique consciente des classes pour atténuer le problème de déséquilibre des récompenses. Les expériences sur le benchmark RAGTruth (résumé, réponse à des questions, données-à-texte) montrent que RL4HS surpasse les modèles de raisonnement pré-entraînés et l'ajustement supervisé, démontrant la nécessité de l'apprentissage par renforcement avec des récompenses au niveau des segments pour détecter les segments hallucinés.

English

Large language models (LLMs) often generate hallucinations -- unsupported content that undermines reliability. While most prior works frame hallucination detection as a binary task, many real-world applications require identifying hallucinated spans, which is a multi-step decision making process. This naturally raises the question of whether explicit reasoning can help the complex task of detecting hallucination spans. To answer this question, we first evaluate pretrained models with and without Chain-of-Thought (CoT) reasoning, and show that CoT reasoning has the potential to generate at least one correct answer when sampled multiple times. Motivated by this, we propose RL4HS, a reinforcement learning framework that incentivizes reasoning with a span-level reward function. RL4HS builds on Group Relative Policy Optimization and introduces Class-Aware Policy Optimization to mitigate reward imbalance issue. Experiments on the RAGTruth benchmark (summarization, question answering, data-to-text) show that RL4HS surpasses pretrained reasoning models and supervised fine-tuning, demonstrating the necessity of reinforcement learning with span-level rewards for detecting hallucination spans.

Apprentissage du raisonnement pour la détection des étendues d'hallucination

Learning to Reason for Hallucination Span Detection

papers.abstract

Support