Lernen zu Argumentieren für die Erkennung von Halluzinationsspannen
Learning to Reason for Hallucination Span Detection
October 2, 2025
papers.authors: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) erzeugen häufig Halluzinationen – nicht belegte Inhalte, die die Zuverlässigkeit untergraben. Während die meisten bisherigen Arbeiten die Erkennung von Halluzinationen als binäre Aufgabe betrachten, erfordern viele reale Anwendungen die Identifizierung von halluzinierten Textabschnitten, was einen mehrstufigen Entscheidungsprozess darstellt. Dies wirft die Frage auf, ob explizites Schlussfolgern bei der komplexen Aufgabe der Erkennung von Halluzinationsabschnitten helfen kann. Um diese Frage zu beantworten, evaluieren wir zunächst vortrainierte Modelle mit und ohne Chain-of-Thought (CoT)-Schlussfolgern und zeigen, dass CoT-Schlussfolgern das Potenzial hat, bei mehrfacher Stichprobenziehung mindestens eine korrekte Antwort zu generieren. Motiviert durch diese Erkenntnis schlagen wir RL4HS vor, ein Reinforcement-Learning-Framework, das das Schlussfolgern mit einer belohnungsbasierten Funktion auf Abschnittsebene fördert. RL4HS baut auf der Group Relative Policy Optimization auf und führt die Class-Aware Policy Optimization ein, um das Problem der Belohnungsungleichheit zu mildern. Experimente auf dem RAGTruth-Benchmark (Zusammenfassung, Fragebeantwortung, Daten-zu-Text) zeigen, dass RL4HS vortrainierte Schlussfolgermodelle und überwachtes Feinabstimmen übertrifft, was die Notwendigkeit von Reinforcement Learning mit belohnungsbasierten Funktionen auf Abschnittsebene für die Erkennung von Halluzinationsabschnitten demonstriert.
English
Large language models (LLMs) often generate hallucinations -- unsupported
content that undermines reliability. While most prior works frame hallucination
detection as a binary task, many real-world applications require identifying
hallucinated spans, which is a multi-step decision making process. This
naturally raises the question of whether explicit reasoning can help the
complex task of detecting hallucination spans. To answer this question, we
first evaluate pretrained models with and without Chain-of-Thought (CoT)
reasoning, and show that CoT reasoning has the potential to generate at least
one correct answer when sampled multiple times. Motivated by this, we propose
RL4HS, a reinforcement learning framework that incentivizes reasoning with a
span-level reward function. RL4HS builds on Group Relative Policy Optimization
and introduces Class-Aware Policy Optimization to mitigate reward imbalance
issue. Experiments on the RAGTruth benchmark (summarization, question
answering, data-to-text) show that RL4HS surpasses pretrained reasoning models
and supervised fine-tuning, demonstrating the necessity of reinforcement
learning with span-level rewards for detecting hallucination spans.