ChatPaper.aiChatPaper

Leren redeneren voor de detectie van hallucinatiebereik

Learning to Reason for Hallucination Span Detection

October 2, 2025
Auteurs: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli
cs.AI

Samenvatting

Grote taalmodellen (LLMs) genereren vaak hallucinaties — niet-onderbouwde inhoud die de betrouwbaarheid ondermijnt. Hoewel de meeste eerdere werken hallucinatiedetectie als een binaire taak benaderen, vereisen veel real-world toepassingen het identificeren van gehallucineerde segmenten, wat een meerstaps besluitvormingsproces is. Dit roept van nature de vraag op of expliciet redeneren kan helpen bij de complexe taak van het detecteren van hallucinatiesegmenten. Om deze vraag te beantwoorden, evalueren we eerst vooraf getrainde modellen met en zonder Chain-of-Thought (CoT)-redenering, en laten we zien dat CoT-redenering het potentieel heeft om minstens één correct antwoord te genereren wanneer deze meerdere keren wordt bemonsterd. Gemotiveerd door dit resultaat, stellen we RL4HS voor, een reinforcement learning-framework dat redeneren aanmoedigt met een beloningsfunctie op segmentniveau. RL4HS bouwt voort op Group Relative Policy Optimization en introduceert Class-Aware Policy Optimization om het probleem van beloningsonbalans te mitigeren. Experimenten op de RAGTruth-benchmark (samenvatting, vraagbeantwoording, data-naar-tekst) laten zien dat RL4HS vooraf getrainde redeneermodellen en supervised fine-tuning overtreft, wat de noodzaak aantoont van reinforcement learning met beloningen op segmentniveau voor het detecteren van hallucinatiesegmenten.
English
Large language models (LLMs) often generate hallucinations -- unsupported content that undermines reliability. While most prior works frame hallucination detection as a binary task, many real-world applications require identifying hallucinated spans, which is a multi-step decision making process. This naturally raises the question of whether explicit reasoning can help the complex task of detecting hallucination spans. To answer this question, we first evaluate pretrained models with and without Chain-of-Thought (CoT) reasoning, and show that CoT reasoning has the potential to generate at least one correct answer when sampled multiple times. Motivated by this, we propose RL4HS, a reinforcement learning framework that incentivizes reasoning with a span-level reward function. RL4HS builds on Group Relative Policy Optimization and introduces Class-Aware Policy Optimization to mitigate reward imbalance issue. Experiments on the RAGTruth benchmark (summarization, question answering, data-to-text) show that RL4HS surpasses pretrained reasoning models and supervised fine-tuning, demonstrating the necessity of reinforcement learning with span-level rewards for detecting hallucination spans.
PDF185October 3, 2025