Anti-zelfdestillatie voor redenerend RL via puntsgewijze wederzijdse informatie

Samenvatting

On-beleid zelf-distillatie, waarbij een student wordt aangetrokken tot een kopie van zichzelf die is geconditioneerd op een geprivilegieerde context (bijvoorbeeld een geverifieerde oplossing of feedback), biedt een veelbelovende richting voor het verbeteren van redeneervermogen zonder een sterke externe leraar. Toch zijn de winsten in wiskundig redeneren inconsistent, zelfs wanneer dezelfde aanpak elders succes heeft. Een puntgewijze wederzijdse informatie-analyse herleidt het falen tot de geprivilegieerde context zelf: deze verhoogt het vertrouwen van de leraar in tokens die al door de oplossing worden geïmpliceerd (structurele connectieven, verifieerbare beweringen) en verlaagt het voor beraadslagingstokens ("Wacht", "Laten we", "Misschien") die meerstapszoekopdrachten aansturen. Wij stellen Anti-Self-Distillation (AntiSD) voor, dat een divergentie tussen student en leraar laat toenemen in plaats van afnemen: dit keert het teken per token om en levert in één stap een van nature begrensd voordeel op. Een entropie-gestuurde poort schakelt de term uit zodra de entropie van de leraar instort, wat een directe vervanging voor standaard zelf-distillatie vormt. Over vijf modellen van 4B tot 30B parameters op benchmarks voor wiskundig redeneren bereikt AntiSD de nauwkeurigheid van de GRPO-baseline in 2 tot 10 keer minder trainingsstappen en verbetert de uiteindelijke nauwkeurigheid met maximaal 11,5 punten. AntiSD opent een pad naar schaalbare zelfverbetering, waarbij een taalmodel zijn eigen redenering bootstrapt via zijn trainingssignaal.

English

On-policy self-distillation, where a student is pulled toward a copy of itself conditioned on privileged context (e.g., a verified solution or feedback), offers a promising direction for advancing reasoning capability without a stronger external teacher. Yet in math reasoning the gains are inconsistent, even when the same approach succeeds elsewhere. A pointwise mutual information analysis traces the failure to the privileged context itself: it inflates the teacher's confidence on tokens already implied by the solution (structural connectives, verifiable claims) and deflates it on deliberation tokens ("Wait", "Let", "Maybe") that drive multi-step search. We propose Anti-Self-Distillation (AntiSD), which ascends a divergence between student and teacher rather than descending it: this reverses the per-token sign and yields a naturally bounded advantage in one step. An entropy-triggered gate disables the term once the teacher entropy collapses, completing a drop-in replacement for default self-distillation. Across five models from 4B to 30B parameters on math reasoning benchmarks, AntiSD reaches the GRPO baseline's accuracy in 2 to 10x fewer training steps and improves final accuracy by up to 11.5 points. AntiSD opens a path to scalable self-improvement, where a language model bootstraps its own reasoning through its training signal.