O Imposto de Alucinação do Ajuste Fino por Reforço
The Hallucination Tax of Reinforcement Finetuning
May 20, 2025
Autores: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI
Resumo
O ajuste fino por reforço (RFT, do inglês Reinforcement Finetuning) tornou-se uma abordagem padrão para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs, do inglês Large Language Models). No entanto, seu impacto na confiabilidade dos modelos ainda é pouco explorado. Neste trabalho, identificamos e estudamos sistematicamente um efeito colateral crítico do RFT, que denominamos de "taxa de alucinação": uma degradação no comportamento de recusa, fazendo com que os modelos produzam respostas alucinadas para perguntas impossíveis de serem respondidas, de forma confiante. Para investigar isso, introduzimos o SUM (Synthetic Unanswerable Math), um conjunto de dados de alta qualidade de problemas matemáticos impossíveis de resolver, projetado para sondar a capacidade dos modelos de reconhecer uma pergunta impossível de ser respondida ao raciocinar a partir de informações insuficientes ou ambíguas. Nossos resultados mostram que o treinamento padrão com RFT pode reduzir as taxas de recusa dos modelos em mais de 80%, o que aumenta significativamente a tendência dos modelos de alucinar. Além disso, demonstramos que a incorporação de apenas 10% do SUM durante o RFT restaura substancialmente o comportamento adequado de recusa, com trocas mínimas de precisão em tarefas solucionáveis. Crucialmente, essa abordagem permite que os LLMs aproveitem o poder computacional no momento da inferência para raciocinar sobre sua própria incerteza e limites de conhecimento, melhorando a generalização não apenas para problemas matemáticos fora do domínio, mas também para tarefas de resposta a perguntas factuais.
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing
the reasoning capabilities of large language models (LLMs). However, its impact
on model trustworthiness remains underexplored. In this work, we identify and
systematically study a critical side effect of RFT, which we term the
hallucination tax: a degradation in refusal behavior causing models to produce
hallucinated answers to unanswerable questions confidently. To investigate
this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of
unanswerable math problems designed to probe models' ability to recognize an
unanswerable question by reasoning from the insufficient or ambiguous
information. Our results show that standard RFT training could reduce model
refusal rates by more than 80%, which significantly increases model's tendency
to hallucinate. We further demonstrate that incorporating just 10% SUM during
RFT substantially restores appropriate refusal behavior, with minimal accuracy
trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage
inference-time compute to reason about their own uncertainty and knowledge
boundaries, improving generalization not only to out-of-domain math problems
but also to factual question answering tasks.