La Tassa sulle Allucinazioni del Fine-Tuning con Rinforzo

Abstract

Il fine-tuning con rinforzo (RFT) è diventato un approccio standard per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, il suo impatto sull'affidabilità dei modelli rimane poco esplorato. In questo lavoro, identifichiamo e studiamo sistematicamente un effetto collaterale critico del RFT, che definiamo tassa sulle allucinazioni: un deterioramento nel comportamento di rifiuto che induce i modelli a produrre risposte allucinate a domande irrisolvibili con sicurezza. Per indagare questo fenomeno, introduciamo SUM (Synthetic Unanswerable Math), un dataset di alta qualità di problemi matematici irrisolvibili progettato per testare la capacità dei modelli di riconoscere una domanda irrisolvibile ragionando a partire da informazioni insufficienti o ambigue. I nostri risultati mostrano che l'addestramento standard con RFT potrebbe ridurre i tassi di rifiuto del modello di oltre l'80%, aumentando significativamente la tendenza del modello a produrre allucinazioni. Dimostriamo inoltre che l'incorporazione di appena il 10% di SUM durante il RFT ripristina sostanzialmente un comportamento di rifiuto appropriato, con compromessi minimi sull'accuratezza per i compiti risolvibili. In modo cruciale, questo approccio consente ai LLM di sfruttare il calcolo in fase di inferenza per ragionare sulla propria incertezza e sui limiti delle conoscenze, migliorando la generalizzazione non solo per problemi matematici fuori dominio, ma anche per compiti di risposta a domande fattuali.

English

Reinforcement finetuning (RFT) has become a standard approach for enhancing the reasoning capabilities of large language models (LLMs). However, its impact on model trustworthiness remains underexplored. In this work, we identify and systematically study a critical side effect of RFT, which we term the hallucination tax: a degradation in refusal behavior causing models to produce hallucinated answers to unanswerable questions confidently. To investigate this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of unanswerable math problems designed to probe models' ability to recognize an unanswerable question by reasoning from the insufficient or ambiguous information. Our results show that standard RFT training could reduce model refusal rates by more than 80%, which significantly increases model's tendency to hallucinate. We further demonstrate that incorporating just 10% SUM during RFT substantially restores appropriate refusal behavior, with minimal accuracy trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage inference-time compute to reason about their own uncertainty and knowledge boundaries, improving generalization not only to out-of-domain math problems but also to factual question answering tasks.

La Tassa sulle Allucinazioni del Fine-Tuning con Rinforzo

The Hallucination Tax of Reinforcement Finetuning

Abstract

Support