Lernen zu Argumentieren für die Erkennung von Halluzinationsspannen

papers.abstract

Große Sprachmodelle (LLMs) erzeugen häufig Halluzinationen – nicht belegte Inhalte, die die Zuverlässigkeit untergraben. Während die meisten bisherigen Arbeiten die Erkennung von Halluzinationen als binäre Aufgabe betrachten, erfordern viele reale Anwendungen die Identifizierung von halluzinierten Textabschnitten, was einen mehrstufigen Entscheidungsprozess darstellt. Dies wirft die Frage auf, ob explizites Schlussfolgern bei der komplexen Aufgabe der Erkennung von Halluzinationsabschnitten helfen kann. Um diese Frage zu beantworten, evaluieren wir zunächst vortrainierte Modelle mit und ohne Chain-of-Thought (CoT)-Schlussfolgern und zeigen, dass CoT-Schlussfolgern das Potenzial hat, bei mehrfacher Stichprobenziehung mindestens eine korrekte Antwort zu generieren. Motiviert durch diese Erkenntnis schlagen wir RL4HS vor, ein Reinforcement-Learning-Framework, das das Schlussfolgern mit einer belohnungsbasierten Funktion auf Abschnittsebene fördert. RL4HS baut auf der Group Relative Policy Optimization auf und führt die Class-Aware Policy Optimization ein, um das Problem der Belohnungsungleichheit zu mildern. Experimente auf dem RAGTruth-Benchmark (Zusammenfassung, Fragebeantwortung, Daten-zu-Text) zeigen, dass RL4HS vortrainierte Schlussfolgermodelle und überwachtes Feinabstimmen übertrifft, was die Notwendigkeit von Reinforcement Learning mit belohnungsbasierten Funktionen auf Abschnittsebene für die Erkennung von Halluzinationsabschnitten demonstriert.

English

Large language models (LLMs) often generate hallucinations -- unsupported content that undermines reliability. While most prior works frame hallucination detection as a binary task, many real-world applications require identifying hallucinated spans, which is a multi-step decision making process. This naturally raises the question of whether explicit reasoning can help the complex task of detecting hallucination spans. To answer this question, we first evaluate pretrained models with and without Chain-of-Thought (CoT) reasoning, and show that CoT reasoning has the potential to generate at least one correct answer when sampled multiple times. Motivated by this, we propose RL4HS, a reinforcement learning framework that incentivizes reasoning with a span-level reward function. RL4HS builds on Group Relative Policy Optimization and introduces Class-Aware Policy Optimization to mitigate reward imbalance issue. Experiments on the RAGTruth benchmark (summarization, question answering, data-to-text) show that RL4HS surpasses pretrained reasoning models and supervised fine-tuning, demonstrating the necessity of reinforcement learning with span-level rewards for detecting hallucination spans.

Lernen zu Argumentieren für die Erkennung von Halluzinationsspannen

Learning to Reason for Hallucination Span Detection

papers.abstract

Support