Die Halluzinationssteuer der Verstärkungsfeinabstimmung
The Hallucination Tax of Reinforcement Finetuning
May 20, 2025
Autoren: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI
Zusammenfassung
Reinforcement Finetuning (RFT) hat sich zu einem Standardansatz entwickelt, um die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens zu verbessern. Dennoch ist seine Auswirkung auf die Vertrauenswürdigkeit der Modelle noch weitgehend unerforscht. In dieser Arbeit identifizieren und untersuchen wir systematisch einen kritischen Nebeneffekt von RFT, den wir als „Halluzinationssteuer“ bezeichnen: eine Verschlechterung des Ablehnungsverhaltens, die dazu führt, dass Modelle auf unbeantwortbare Fragen selbstbewusst halluzinierte Antworten liefern. Um dies zu untersuchen, stellen wir SUM (Synthetic Unanswerable Math) vor, einen hochwertigen Datensatz unbeantwortbarer mathematischer Probleme, der darauf abzielt, die Fähigkeit der Modelle zu testen, eine unbeantwortbare Frage durch logisches Schlussfolgern aus unzureichenden oder mehrdeutigen Informationen zu erkennen. Unsere Ergebnisse zeigen, dass das standardmäßige RFT-Training die Ablehnungsraten der Modelle um mehr als 80 % reduzieren kann, was die Tendenz der Modelle zur Halluzination erheblich erhöht. Wir demonstrieren weiterhin, dass die Einbindung von nur 10 % SUM während des RFT das angemessene Ablehnungsverhalten weitgehend wiederherstellt, mit minimalen Genauigkeitseinbußen bei lösbaren Aufgaben. Entscheidend ist, dass dieser Ansatz es LLMs ermöglicht, Rechenleistung zur Laufzeit zu nutzen, um über ihre eigene Unsicherheit und Wissensgrenzen nachzudenken, was die Generalisierung nicht nur auf domänenfremde mathematische Probleme, sondern auch auf faktische Frage-Antwort-Aufgaben verbessert.
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing
the reasoning capabilities of large language models (LLMs). However, its impact
on model trustworthiness remains underexplored. In this work, we identify and
systematically study a critical side effect of RFT, which we term the
hallucination tax: a degradation in refusal behavior causing models to produce
hallucinated answers to unanswerable questions confidently. To investigate
this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of
unanswerable math problems designed to probe models' ability to recognize an
unanswerable question by reasoning from the insufficient or ambiguous
information. Our results show that standard RFT training could reduce model
refusal rates by more than 80%, which significantly increases model's tendency
to hallucinate. We further demonstrate that incorporating just 10% SUM during
RFT substantially restores appropriate refusal behavior, with minimal accuracy
trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage
inference-time compute to reason about their own uncertainty and knowledge
boundaries, improving generalization not only to out-of-domain math problems
but also to factual question answering tasks.Summary
AI-Generated Summary