Anti-auto-distillation pour le RL de raisonnement via l'information mutuelle ponctuelle

Résumé

L'auto-distillation sur politique, où un étudiant est attiré vers une copie de lui-même conditionnée par un contexte privilégié (par exemple, une solution vérifiée ou un retour d'information), offre une voie prometteuse pour améliorer la capacité de raisonnement sans recourir à un enseignant externe plus fort. Cependant, dans le raisonnement mathématique, les gains sont irréguliers, même lorsque la même approche réussit ailleurs. Une analyse par information mutuelle ponctuelle attribue cet échec au contexte privilégié lui-même : il augmente la confiance de l'enseignant sur les jetons déjà impliqués par la solution (connecteurs structurels, affirmations vérifiables) et la diminue sur les jetons de délibération (« Attends », « Soit », « Peut-être ») qui sous-tendent la recherche multi-étapes. Nous proposons l'Anti-Auto-Distillation (AntiSD), qui augmente une divergence entre l'étudiant et l'enseignant plutôt que de la diminuer : cela inverse le signe par jeton et produit un avantage naturellement borné en une seule étape. Une porte déclenchée par l'entropie désactive le terme une fois que l'entropie de l'enseignant s'effondre, complétant un remplacement direct de l'auto-distillation par défaut. Sur cinq modèles de 4 à 30 milliards de paramètres, évalués sur des références de raisonnement mathématique, l'AntiSD atteint la précision de la baseline GRPO en 2 à 10 fois moins d'étapes d'entraînement et améliore la précision finale jusqu'à 11,5 points. L'AntiSD ouvre une voie vers une auto-amélioration scalable, où un modèle de langage améliore par amorçage son propre raisonnement à travers son signal d'apprentissage.

English

On-policy self-distillation, where a student is pulled toward a copy of itself conditioned on privileged context (e.g., a verified solution or feedback), offers a promising direction for advancing reasoning capability without a stronger external teacher. Yet in math reasoning the gains are inconsistent, even when the same approach succeeds elsewhere. A pointwise mutual information analysis traces the failure to the privileged context itself: it inflates the teacher's confidence on tokens already implied by the solution (structural connectives, verifiable claims) and deflates it on deliberation tokens ("Wait", "Let", "Maybe") that drive multi-step search. We propose Anti-Self-Distillation (AntiSD), which ascends a divergence between student and teacher rather than descending it: this reverses the per-token sign and yields a naturally bounded advantage in one step. An entropy-triggered gate disables the term once the teacher entropy collapses, completing a drop-in replacement for default self-distillation. Across five models from 4B to 30B parameters on math reasoning benchmarks, AntiSD reaches the GRPO baseline's accuracy in 2 to 10x fewer training steps and improves final accuracy by up to 11.5 points. AntiSD opens a path to scalable self-improvement, where a language model bootstraps its own reasoning through its training signal.