Anti-Selbstdestillation für Reasoning-RL mittels punktweiser gegenseitiger Information

Zusammenfassung

On-Policy-Selbst-Destillation, bei der ein Schüler in Richtung einer Kopie seiner selbst gezogen wird, die durch privilegierten Kontext (z. B. eine verifizierte Lösung oder Rückmeldung) konditioniert ist, bietet einen vielversprechenden Ansatz zur Verbesserung der Denkfähigkeit ohne einen stärkeren externen Lehrer. Doch bei mathematischen Denkaufgaben sind die Fortschritte uneinheitlich, selbst wenn derselbe Ansatz anderswo erfolgreich ist. Eine Analyse der punktweisen gegenseitigen Information führt das Scheitern auf den privilegierten Kontext selbst zurück: Er erhöht die Konfidenz des Lehrers bei Token, die bereits durch die Lösung impliziert werden (strukturelle Konnektive, überprüfbare Behauptungen), und senkt sie bei Überlegungs-Token ("Warte", "Lass", "Vielleicht"), die die mehrstufige Suche vorantreiben. Wir schlagen Anti-Selbst-Destillation (AntiSD) vor, die eine Divergenz zwischen Schüler und Lehrer aufsteigt statt absteigt: Dies kehrt das Vorzeichen pro Token um und ergibt einen natürlich begrenzten Vorteil in einem Schritt. Ein entropiegesteuertes Tor deaktiviert den Term, sobald die Lehrer-Entropie zusammenbricht, und vervollständigt so einen Drop-in-Ersatz für die Standard-Selbst-Destillation. Über fünf Modelle mit 4B bis 30B Parametern bei Benchmarks für mathematisches Denken erreicht AntiSD die Genauigkeit der GRPO-Baseline in 2 bis 10 Mal weniger Trainingsschritten und verbessert die endgültige Genauigkeit um bis zu 11,5 Punkte. AntiSD eröffnet einen Weg zur skalierbaren Selbstverbesserung, bei dem ein Sprachmodell sein eigenes Denken durch sein Trainingssignal vorantreibt.

English

On-policy self-distillation, where a student is pulled toward a copy of itself conditioned on privileged context (e.g., a verified solution or feedback), offers a promising direction for advancing reasoning capability without a stronger external teacher. Yet in math reasoning the gains are inconsistent, even when the same approach succeeds elsewhere. A pointwise mutual information analysis traces the failure to the privileged context itself: it inflates the teacher's confidence on tokens already implied by the solution (structural connectives, verifiable claims) and deflates it on deliberation tokens ("Wait", "Let", "Maybe") that drive multi-step search. We propose Anti-Self-Distillation (AntiSD), which ascends a divergence between student and teacher rather than descending it: this reverses the per-token sign and yields a naturally bounded advantage in one step. An entropy-triggered gate disables the term once the teacher entropy collapses, completing a drop-in replacement for default self-distillation. Across five models from 4B to 30B parameters on math reasoning benchmarks, AntiSD reaches the GRPO baseline's accuracy in 2 to 10x fewer training steps and improves final accuracy by up to 11.5 points. AntiSD opens a path to scalable self-improvement, where a language model bootstraps its own reasoning through its training signal.