Anti-Autodestilación para RL de Razonamiento mediante Información Mutua Puntual

Resumen

La autodestilación on-policy, donde un estudiante es atraído hacia una copia de sí mismo condicionada por un contexto privilegiado (por ejemplo, una solución verificada o retroalimentación), ofrece una dirección prometedora para mejorar la capacidad de razonamiento sin un maestro externo más fuerte. Sin embargo, en el razonamiento matemático las ganancias son inconsistentes, incluso cuando el mismo enfoque tiene éxito en otros dominios. Un análisis de información mutua puntual atribuye el fracaso al propio contexto privilegiado: este infla la confianza del profesor en tokens ya implicados por la solución (conectivos estructurales, afirmaciones verificables) y la reduce en tokens de deliberación ("Espera", "Sea", "Quizás") que impulsan la búsqueda multi-paso. Proponemos Anti-Autodestilación (AntiSD), que asciende por una divergencia entre estudiante y profesor en lugar de descenderla: esto invierte el signo por token y produce una ventaja naturalmente acotada en un solo paso. Una compuerta activada por entropía desactiva el término una vez que la entropía del profesor colapsa, completando un reemplazo directo de la autodestilación por defecto. En cinco modelos de 4B a 30B parámetros en benchmarks de razonamiento matemático, AntiSD alcanza la precisión de la línea base GRPO en 2 a 10 veces menos pasos de entrenamiento y mejora la precisión final en hasta 11.5 puntos. AntiSD abre una vía hacia la automejora escalable, donde un modelo de lenguaje se impulsa a sí mismo en su razonamiento mediante su propia señal de entrenamiento.

English

On-policy self-distillation, where a student is pulled toward a copy of itself conditioned on privileged context (e.g., a verified solution or feedback), offers a promising direction for advancing reasoning capability without a stronger external teacher. Yet in math reasoning the gains are inconsistent, even when the same approach succeeds elsewhere. A pointwise mutual information analysis traces the failure to the privileged context itself: it inflates the teacher's confidence on tokens already implied by the solution (structural connectives, verifiable claims) and deflates it on deliberation tokens ("Wait", "Let", "Maybe") that drive multi-step search. We propose Anti-Self-Distillation (AntiSD), which ascends a divergence between student and teacher rather than descending it: this reverses the per-token sign and yields a naturally bounded advantage in one step. An entropy-triggered gate disables the term once the teacher entropy collapses, completing a drop-in replacement for default self-distillation. Across five models from 4B to 30B parameters on math reasoning benchmarks, AntiSD reaches the GRPO baseline's accuracy in 2 to 10x fewer training steps and improves final accuracy by up to 11.5 points. AntiSD opens a path to scalable self-improvement, where a language model bootstraps its own reasoning through its training signal.