Налог на галлюцинации при тонкой настройке с подкреплением
The Hallucination Tax of Reinforcement Finetuning
May 20, 2025
Авторы: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI
Аннотация
Тонкая настройка с подкреплением (Reinforcement Finetuning, RFT) стала стандартным подходом для улучшения способностей крупных языковых моделей (LLM) к рассуждению. Однако её влияние на доверие к моделям остаётся недостаточно изученным. В данной работе мы выявляем и систематически исследуем критический побочный эффект RFT, который мы называем "налогом на галлюцинации": ухудшение поведения отказа, приводящее к тому, что модели уверенно генерируют галлюцинированные ответы на неразрешимые вопросы. Для изучения этого явления мы представляем SUM (Synthetic Unanswerable Math) — высококачественный набор данных, состоящий из неразрешимых математических задач, предназначенных для проверки способности моделей распознавать неразрешимые вопросы путём рассуждения на основе недостаточной или неоднозначной информации. Наши результаты показывают, что стандартная тренировка RFT может снизить частоту отказов модели более чем на 80%, что значительно увеличивает склонность модели к галлюцинациям. Мы также демонстрируем, что включение всего 10% данных SUM в процессе RFT существенно восстанавливает корректное поведение отказа с минимальными компромиссами в точности на решаемых задачах. Важно отметить, что этот подход позволяет LLM использовать вычислительные ресурсы на этапе вывода для рассуждения о собственной неопределённости и границах знаний, улучшая обобщение не только на задачи из других областей математики, но и на задачи фактологического ответа на вопросы.
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing
the reasoning capabilities of large language models (LLMs). However, its impact
on model trustworthiness remains underexplored. In this work, we identify and
systematically study a critical side effect of RFT, which we term the
hallucination tax: a degradation in refusal behavior causing models to produce
hallucinated answers to unanswerable questions confidently. To investigate
this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of
unanswerable math problems designed to probe models' ability to recognize an
unanswerable question by reasoning from the insufficient or ambiguous
information. Our results show that standard RFT training could reduce model
refusal rates by more than 80%, which significantly increases model's tendency
to hallucinate. We further demonstrate that incorporating just 10% SUM during
RFT substantially restores appropriate refusal behavior, with minimal accuracy
trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage
inference-time compute to reason about their own uncertainty and knowledge
boundaries, improving generalization not only to out-of-domain math problems
but also to factual question answering tasks.Summary
AI-Generated Summary