La Tassa sulle Allucinazioni del Fine-Tuning con Rinforzo
The Hallucination Tax of Reinforcement Finetuning
May 20, 2025
Autori: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI
Abstract
Il fine-tuning con rinforzo (RFT) è diventato un approccio standard per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, il suo impatto sull'affidabilità dei modelli rimane poco esplorato. In questo lavoro, identifichiamo e studiamo sistematicamente un effetto collaterale critico del RFT, che definiamo tassa sulle allucinazioni: un deterioramento nel comportamento di rifiuto che induce i modelli a produrre risposte allucinate a domande irrisolvibili con sicurezza. Per indagare questo fenomeno, introduciamo SUM (Synthetic Unanswerable Math), un dataset di alta qualità di problemi matematici irrisolvibili progettato per testare la capacità dei modelli di riconoscere una domanda irrisolvibile ragionando a partire da informazioni insufficienti o ambigue. I nostri risultati mostrano che l'addestramento standard con RFT potrebbe ridurre i tassi di rifiuto del modello di oltre l'80%, aumentando significativamente la tendenza del modello a produrre allucinazioni. Dimostriamo inoltre che l'incorporazione di appena il 10% di SUM durante il RFT ripristina sostanzialmente un comportamento di rifiuto appropriato, con compromessi minimi sull'accuratezza per i compiti risolvibili. In modo cruciale, questo approccio consente ai LLM di sfruttare il calcolo in fase di inferenza per ragionare sulla propria incertezza e sui limiti delle conoscenze, migliorando la generalizzazione non solo per problemi matematici fuori dominio, ma anche per compiti di risposta a domande fattuali.
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing
the reasoning capabilities of large language models (LLMs). However, its impact
on model trustworthiness remains underexplored. In this work, we identify and
systematically study a critical side effect of RFT, which we term the
hallucination tax: a degradation in refusal behavior causing models to produce
hallucinated answers to unanswerable questions confidently. To investigate
this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of
unanswerable math problems designed to probe models' ability to recognize an
unanswerable question by reasoning from the insufficient or ambiguous
information. Our results show that standard RFT training could reduce model
refusal rates by more than 80%, which significantly increases model's tendency
to hallucinate. We further demonstrate that incorporating just 10% SUM during
RFT substantially restores appropriate refusal behavior, with minimal accuracy
trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage
inference-time compute to reason about their own uncertainty and knowledge
boundaries, improving generalization not only to out-of-domain math problems
but also to factual question answering tasks.