ChatPaper.aiChatPaper

De Hallucinatiebelasting van Reinforcement Finetuning

The Hallucination Tax of Reinforcement Finetuning

May 20, 2025
Auteurs: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI

Samenvatting

Reinforcement finetuning (RFT) is uitgegroeid tot een standaardaanpak voor het verbeteren van de redeneervaardigheden van grote taalmodelen (LLMs). Het effect ervan op de betrouwbaarheid van modellen blijft echter onderbelicht. In dit werk identificeren en bestuderen we systematisch een kritisch neveneffect van RFT, dat we de hallucinatiebelasting noemen: een verslechtering in weigeringsgedrag waardoor modellen met vertrouwen hallucinerende antwoorden geven op onbeantwoordbare vragen. Om dit te onderzoeken, introduceren we SUM (Synthetic Unanswerable Math), een hoogwaardige dataset van onbeantwoordbare wiskundeproblemen die is ontworpen om het vermogen van modellen te testen om een onbeantwoordbare vraag te herkennen door te redeneren vanuit onvoldoende of dubbelzinnige informatie. Onze resultaten laten zien dat standaard RFT-training de weigeringspercentages van modellen met meer dan 80% kan verminderen, wat de neiging van modellen om te hallucineren aanzienlijk verhoogt. We tonen verder aan dat het opnemen van slechts 10% SUM tijdens RFT het juiste weigeringsgedrag aanzienlijk herstelt, met minimale nauwkeurigheidsverliezen bij oplosbare taken. Cruciaal is dat deze aanpak LLMs in staat stelt om rekentijd tijdens inferentie te benutten om na te denken over hun eigen onzekerheid en kennisgrenzen, wat niet alleen de generalisatie naar out-of-domain wiskundeproblemen verbetert, maar ook naar feitelijke vraag-antwoordtaken.
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing the reasoning capabilities of large language models (LLMs). However, its impact on model trustworthiness remains underexplored. In this work, we identify and systematically study a critical side effect of RFT, which we term the hallucination tax: a degradation in refusal behavior causing models to produce hallucinated answers to unanswerable questions confidently. To investigate this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of unanswerable math problems designed to probe models' ability to recognize an unanswerable question by reasoning from the insufficient or ambiguous information. Our results show that standard RFT training could reduce model refusal rates by more than 80%, which significantly increases model's tendency to hallucinate. We further demonstrate that incorporating just 10% SUM during RFT substantially restores appropriate refusal behavior, with minimal accuracy trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage inference-time compute to reason about their own uncertainty and knowledge boundaries, improving generalization not only to out-of-domain math problems but also to factual question answering tasks.

Summary

AI-Generated Summary

PDF72May 21, 2025