強化学習によるファインチューニングにおける幻覚コスト
The Hallucination Tax of Reinforcement Finetuning
May 20, 2025
著者: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI
要旨
強化学習によるファインチューニング(RFT)は、大規模言語モデル(LLM)の推論能力を向上させるための標準的なアプローチとなっています。しかし、そのモデルの信頼性への影響はまだ十分に検討されていません。本研究では、RFTの重要な副作用として「幻覚税(hallucination tax)」を特定し、体系的に調査します。これは、モデルが回答不可能な質問に対して自信を持って幻覚的な回答を生成するという、拒否行動の劣化を指します。これを調査するため、私たちはSUM(Synthetic Unanswerable Math)を導入しました。これは、不十分または曖昧な情報から推論することで、モデルが回答不可能な質問を認識する能力を探るために設計された高品質な数学問題のデータセットです。結果は、標準的なRFTトレーニングがモデルの拒否率を80%以上減少させ、モデルの幻覚傾向を大幅に増加させることを示しています。さらに、RFT中にSUMをわずか10%組み込むことで、解決可能なタスクでの精度のトレードオフを最小限に抑えつつ、適切な拒否行動が大幅に回復することを実証しました。重要なことに、このアプローチにより、LLMは推論時の計算リソースを活用して自身の不確実性や知識の境界について推論することが可能になり、ドメイン外の数学問題だけでなく、事実に基づく質問応答タスクへの一般化も向上します。
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing
the reasoning capabilities of large language models (LLMs). However, its impact
on model trustworthiness remains underexplored. In this work, we identify and
systematically study a critical side effect of RFT, which we term the
hallucination tax: a degradation in refusal behavior causing models to produce
hallucinated answers to unanswerable questions confidently. To investigate
this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of
unanswerable math problems designed to probe models' ability to recognize an
unanswerable question by reasoning from the insufficient or ambiguous
information. Our results show that standard RFT training could reduce model
refusal rates by more than 80%, which significantly increases model's tendency
to hallucinate. We further demonstrate that incorporating just 10% SUM during
RFT substantially restores appropriate refusal behavior, with minimal accuracy
trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage
inference-time compute to reason about their own uncertainty and knowledge
boundaries, improving generalization not only to out-of-domain math problems
but also to factual question answering tasks.Summary
AI-Generated Summary