De Hallucinatiebelasting van Reinforcement Finetuning
The Hallucination Tax of Reinforcement Finetuning
May 20, 2025
Auteurs: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI
Samenvatting
Reinforcement finetuning (RFT) is uitgegroeid tot een standaardaanpak voor het verbeteren van de redeneervaardigheden van grote taalmodelen (LLMs). Het effect ervan op de betrouwbaarheid van modellen blijft echter onderbelicht. In dit werk identificeren en bestuderen we systematisch een kritisch neveneffect van RFT, dat we de hallucinatiebelasting noemen: een verslechtering in weigeringsgedrag waardoor modellen met vertrouwen hallucinerende antwoorden geven op onbeantwoordbare vragen. Om dit te onderzoeken, introduceren we SUM (Synthetic Unanswerable Math), een hoogwaardige dataset van onbeantwoordbare wiskundeproblemen die is ontworpen om het vermogen van modellen te testen om een onbeantwoordbare vraag te herkennen door te redeneren vanuit onvoldoende of dubbelzinnige informatie. Onze resultaten laten zien dat standaard RFT-training de weigeringspercentages van modellen met meer dan 80% kan verminderen, wat de neiging van modellen om te hallucineren aanzienlijk verhoogt. We tonen verder aan dat het opnemen van slechts 10% SUM tijdens RFT het juiste weigeringsgedrag aanzienlijk herstelt, met minimale nauwkeurigheidsverliezen bij oplosbare taken. Cruciaal is dat deze aanpak LLMs in staat stelt om rekentijd tijdens inferentie te benutten om na te denken over hun eigen onzekerheid en kennisgrenzen, wat niet alleen de generalisatie naar out-of-domain wiskundeproblemen verbetert, maar ook naar feitelijke vraag-antwoordtaken.
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing
the reasoning capabilities of large language models (LLMs). However, its impact
on model trustworthiness remains underexplored. In this work, we identify and
systematically study a critical side effect of RFT, which we term the
hallucination tax: a degradation in refusal behavior causing models to produce
hallucinated answers to unanswerable questions confidently. To investigate
this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of
unanswerable math problems designed to probe models' ability to recognize an
unanswerable question by reasoning from the insufficient or ambiguous
information. Our results show that standard RFT training could reduce model
refusal rates by more than 80%, which significantly increases model's tendency
to hallucinate. We further demonstrate that incorporating just 10% SUM during
RFT substantially restores appropriate refusal behavior, with minimal accuracy
trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage
inference-time compute to reason about their own uncertainty and knowledge
boundaries, improving generalization not only to out-of-domain math problems
but also to factual question answering tasks.Summary
AI-Generated Summary