El Impuesto de Alucinación del Ajuste Fino por Refuerzo
The Hallucination Tax of Reinforcement Finetuning
May 20, 2025
Autores: Linxin Song, Taiwei Shi, Jieyu Zhao
cs.AI
Resumen
El ajuste fino por refuerzo (RFT, por sus siglas en inglés) se ha convertido en un enfoque estándar para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). Sin embargo, su impacto en la confiabilidad de los modelos sigue siendo poco explorado. En este trabajo, identificamos y estudiamos sistemáticamente un efecto secundario crítico del RFT, al que denominamos el impuesto de la alucinación: una degradación en el comportamiento de rechazo que hace que los modelos produzcan respuestas alucinadas a preguntas irresolubles con confianza. Para investigar esto, presentamos SUM (Matemáticas Irresolubles Sintéticas), un conjunto de datos de alta calidad de problemas matemáticos irresolubles diseñado para evaluar la capacidad de los modelos de reconocer una pregunta irresoluble mediante el razonamiento a partir de información insuficiente o ambigua. Nuestros resultados muestran que el entrenamiento estándar con RFT podría reducir las tasas de rechazo de los modelos en más del 80%, lo que aumenta significativamente la tendencia de los modelos a alucinar. Además, demostramos que incorporar solo un 10% de SUM durante el RFT restaura sustancialmente el comportamiento de rechazo adecuado, con mínimas compensaciones en la precisión para tareas resolubles. Crucialmente, este enfoque permite a los LLMs aprovechar el cómputo en tiempo de inferencia para razonar sobre su propia incertidumbre y límites de conocimiento, mejorando la generalización no solo en problemas matemáticos fuera de su dominio, sino también en tareas de respuesta a preguntas factuales.
English
Reinforcement finetuning (RFT) has become a standard approach for enhancing
the reasoning capabilities of large language models (LLMs). However, its impact
on model trustworthiness remains underexplored. In this work, we identify and
systematically study a critical side effect of RFT, which we term the
hallucination tax: a degradation in refusal behavior causing models to produce
hallucinated answers to unanswerable questions confidently. To investigate
this, we introduce SUM (Synthetic Unanswerable Math), a high-quality dataset of
unanswerable math problems designed to probe models' ability to recognize an
unanswerable question by reasoning from the insufficient or ambiguous
information. Our results show that standard RFT training could reduce model
refusal rates by more than 80%, which significantly increases model's tendency
to hallucinate. We further demonstrate that incorporating just 10% SUM during
RFT substantially restores appropriate refusal behavior, with minimal accuracy
trade-offs on solvable tasks. Crucially, this approach enables LLMs to leverage
inference-time compute to reason about their own uncertainty and knowledge
boundaries, improving generalization not only to out-of-domain math problems
but also to factual question answering tasks.Summary
AI-Generated Summary