¿Por Qué la Auto-Destilación (a Veces) Degrada la Capacidad de Razonamiento de los LLM?

Resumen

La auto-distilación ha surgido como un paradigma efectivo de posentrenamiento para LLMs, que a menudo mejora el rendimiento acortando las trazas de razonamiento. Sin embargo, en el razonamiento matemático, encontramos que puede reducir la longitud de la respuesta mientras degrada el rendimiento. Rastreamos esta degradación hasta la supresión de la verbalización epistémica: la expresión de incertidumbre del modelo durante el razonamiento. Mediante experimentos controlados que varían la riqueza del contexto de condicionamiento y la cobertura de tareas, mostramos que condicionar al profesor con información rica suprime la expresión de incertidumbre, permitiendo una rápida optimización dentro del dominio con cobertura limitada de tareas, pero dañando el rendimiento fuera de dominio (OOD), donde los problemas no vistos se benefician de expresar incertidumbre y ajustarse en consecuencia. En Qwen3-8B, DeepSeek-Distill-Qwen-7B y Olmo3-7B-Instruct, observamos caídas de rendimiento de hasta el 40%. Nuestros hallazgos destacan que exponer niveles apropiados de incertidumbre es crucial para un razonamiento robusto y subrayan la importancia de optimizar el comportamiento de razonamiento más allá de simplemente reforzar las trazas de respuestas correctas.

English

Self-distillation has emerged as an effective post-training paradigm for LLMs, often improving performance while shortening reasoning traces. However, in mathematical reasoning, we find that it can reduce response length while degrading performance. We trace this degradation to the suppression of epistemic verbalization - the model's expression of uncertainty during reasoning. Through controlled experiments varying conditioning context richness and task coverage, we show that conditioning the teacher on rich information suppresses uncertainty expression, enabling rapid in-domain optimization with limited task coverage but harming OOD performance, where unseen problems benefit from expressing uncertainty and adjusting accordingly. Across Qwen3-8B, DeepSeek-Distill-Qwen-7B, and Olmo3-7B-Instruct, we observe performance drops of up to 40%. Our findings highlight that exposing appropriate levels of uncertainty is crucial for robust reasoning and underscore the importance of optimizing reasoning behavior beyond merely reinforcing correct answer traces.

¿Por Qué la Auto-Destilación (a Veces) Degrada la Capacidad de Razonamiento de los LLM?

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Resumen

Support