Weniger ist mehr: Frühzeitiger Stopp des Rollouts für On-Policy-Destillation

Zusammenfassung

On-Policy-Destillation hat sich kürzlich als vielversprechende Alternative zur herkömmlichen sequenzbasierten Imitation erwiesen, bei der ein Schüler trainiert wird, indem seine eigenen Rollouts mit einem Lehrermodell bewertet werden. Wir beobachten jedoch ein Problem in diesem Paradigma: das „Off-Policy-Teacher-Decay“-Problem. Bei späteren Tokens kann die Fähigkeit des Lehrers, eine korrigierende Bewertung zu liefern, nachlassen, da der Kontext aus der vorherigen Trajektorie des Schülers für den Lehrer off-policy ist, und der Lehrer möglicherweise auf das in der Vortrainingsphase erlernte Token-Vervollständigungsverhalten zurückfällt. Wir bestätigen dieses Problem empirisch und schlagen Early Stopping Rollout (ESR) vor, um es zu beheben: eine einfache, aber effektive Destillationsstrategie, die die Rollout-Erzeugung einfach auf die ersten Antworttokens beschränkt. Wir zeigen, dass ESR sowohl die vollständige Rollout-OPD-Leistung in Bezug auf Modellgröße, -familie, Aufgaben und Trainingsregime übertrifft als auch eine deutlich höhere GPU-Effizienz und Trainingsstabilität aufweist, insbesondere in Szenarien mit unterschiedlichen Modellfamilien. Wir untersuchen weiter den Mechanismus hinter dieser überraschenden Leistung und entdecken die Effekte von „Cascading Alignment“ und „Sub-mode Commitment“ durch ESR, die erklären könnten, warum es effektiv funktioniert und manchmal sogar die Leistung des Lehrermodells übertrifft. Darüber hinaus zeigen wir, dass diese positionsbasierte Token-Auswahlstrategie nicht vollständig durch KL-Divergenz- und Entropiesignale erklärbar ist.

English

On-policy distillation has recently emerged as a promising alternative to standard sequence-level imitation, training a student by scoring its own rollouts with a teacher model. However, we observe ``Off-policy Teacher Decay'' problem in this paradigm: for the later tokens, with student's earlier trajectory as context that is off-policy to the teacher, the teacher's ability to produce a corrective score would decay, and may fall back to token-completion behavior learned in the pre-training stage. We empirically verify this problem, and we propose Early Stopping Rollout (ESR) to fix it: a simple yet effective distillation strategy that simply restricts the rollout generation to the first response tokens. We show that ESR both surpasses the full rollout OPD performance across model size, family, tasks and training regime, and exhibit much higher GPU efficiency and training stability, especially under cross model family scenarios. We further investigate the mechanism behind this surprising performance and discovered "Cascading Alignment" and "Sub-mode Commitment" effect of ESR that may explain why it works effectively and even sometimes exceeding the teacher model performance. Besides, we show that this position-based token selection strategy cannot be fully explainable by KL divergence and entropy signals.