ChatPaper.aiChatPaper

Die Halluzinationssteuer der Verstärkungsfeinabstimmung

The Hallucination Tax of Reinforcement Finetuning

May 20, 2025
Autoren: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI

Zusammenfassung

Reinforcement Finetuning (RFT) hat sich zu einem Standardansatz entwickelt, um die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens zu verbessern. Dennoch ist seine Auswirkung auf die Vertrauenswürdigkeit der Modelle noch weitgehend unerforscht. In dieser Arbeit identifizieren und untersuchen wir systematisch einen kritischen Nebeneffekt von RFT, den wir als „Halluzinationssteuer“ bezeichnen: eine Verschlechterung des Ablehnungsverhaltens, die dazu führt, dass Modelle auf unbeantwortbare Fragen selbstbewusst halluzinierte Antworten liefern. Um dies zu untersuchen, stellen wir SUM (Synthetic Unanswerable Math) vor, einen hochwertigen Datensatz unbeantwortbarer mathematischer Probleme, der darauf abzielt, die Fähigkeit der Modelle zu testen, eine unbeantwortbare Frage durch logisches Schlussfolgern aus unzureichenden oder mehrdeutigen Informationen zu erkennen. Unsere Ergebnisse zeigen, dass das standardmäßige RFT-Training die Ablehnungsraten der Modelle um mehr als 80 % reduzieren kann, was die Tendenz der Modelle zur Halluzination erheblich erhöht. Wir demonstrieren weiterhin, dass die Einbindung von nur 10 % SUM während des RFT das angemessene Ablehnungsverhalten weitgehend wiederherstellt, mit minimalen Genauigkeitseinbußen bei lösbaren Aufgaben. Entscheidend ist, dass dieser Ansatz es LLMs ermöglicht, Rechenleistung zur Laufzeit zu nutzen, um über ihre eigene Unsicherheit und Wissensgrenzen nachzudenken, was die Generalisierung nicht nur auf domänenfremde mathematische Probleme, sondern auch auf faktische Frage-Antwort-Aufgaben verbessert.
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing the reasoning capabilities of large language models (LLMs). However, its impact on model trustworthiness remains underexplored. In this work, we identify and systematically study a critical side effect of RFT, which we term the hallucination tax: a degradation in refusal behavior causing models to produce hallucinated answers to unanswerable questions confidently. To investigate this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of unanswerable math problems designed to probe models' ability to recognize an unanswerable question by reasoning from the insufficient or ambiguous information. Our results show that standard RFT training could reduce model refusal rates by more than 80%, which significantly increases model's tendency to hallucinate. We further demonstrate that incorporating just 10% SUM during RFT substantially restores appropriate refusal behavior, with minimal accuracy trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage inference-time compute to reason about their own uncertainty and knowledge boundaries, improving generalization not only to out-of-domain math problems but also to factual question answering tasks.

Summary

AI-Generated Summary

PDF72May 21, 2025