Trust-Region-Verhaltensblending für On-Policy-Destillation

Zusammenfassung

On-Policy-Destillation (OPD) trainiert einen Schüler auf Präfixe, die aus seiner eigenen Strategie stammen, während sie mit einem stärkeren Lehrer abgeglichen wird. Dies behebt den Präfix-Mismatch der Offline-Destillation, allerdings können frühe Schüler-Rollouts weiterhin schwach sein, sodass die Lehrerüberwachung auf schwachen oder minderwertigen Präfixen erfolgt. Wir schlagen Trust-Region behavior Blending (TRB) vor, eine Aufwärmmethode, die die frühe Rollout-Strategie durch die dem Lehrer am nächsten liegende Verhaltensstrategie innerhalb einer schülerzentrierten KL-Vertrauensregion ersetzt, während der per-Präfix Reverse-KL-OPD-Verlust unverändert bleibt. Das KL-Budget wird auf Null abgekühlt, sodass das Training nach der Aufwärmphase wieder auf reine Schüler-Rollouts zurückkehrt. In zwei Umgebungen zur Destillation mathematischen Denkens erzielt TRB den stärksten Durchschnitt unter den verglichenen Methoden.

English

On-policy distillation (OPD) trains a student on prefixes sampled from its own policy while matching a stronger teacher. This addresses the prefix mismatch of offline distillation, but early student rollouts can still be poor, placing teacher supervision on weak or low-quality prefixes. We propose Trust-Region behavior Blending (TRB), a warmup method that replaces the early rollout policy with the closest-to-teacher behavior policy inside a student-centered KL trust region, while keeping the per-prefix reverse-KL OPD loss unchanged. The KL budget is annealed to zero, so training returns to pure student rollouts after warmup. Across two math-reasoning distillation settings, TRB attains the strongest average among the compared methods.