Apprendre à prévoir : dévoiler l'efficacité du déverrouillage par distillation on-policy

Résumé

La distillation sur politique (OPD) est devenue un paradigme de post-entraînement efficace pour les grands modèles de langage. Cependant, les études existantes attribuent principalement cet avantage à une supervision plus dense et plus stable, tandis que les mécanismes au niveau des paramètres qui sous-tendent l'efficacité de l'OPD restent mal compris. Dans ce travail, nous soutenons que l'efficacité de l'OPD découle d'une forme d'« anticipation » : elle établit une trajectoire de mise à jour stable vers le modèle final dès le début de l'entraînement. Cette anticipation se manifeste sous deux aspects. Premièrement, au niveau de l'allocation des modules, l'OPD identifie les régions à faible utilité marginale et concentre les mises à jour sur les modules les plus critiques pour le raisonnement. Deuxièmement, au niveau de la direction de mise à jour, l'OPD présente une concentration de faible rang plus prononcée, ses sous-espaces dominants s'alignant étroitement avec le sous-espace de mise à jour final dès le début de l'entraînement. Sur la base de ces résultats, nous proposons EffOPD, une méthode d'accélération plug-and-play qui accélère l'OPD en sélectionnant de manière adaptative une taille de pas d'extrapolation et en progressant le long de la direction de mise à jour actuelle. EffOPD ne nécessite ni modules entraînables supplémentaires ni réglage complexe des hyperparamètres, et atteint une accélération moyenne de l'entraînement de 3 fois tout en maintenant des performances finales comparables. Dans l'ensemble, nos résultats offrent une perspective de dynamique des paramètres pour comprendre l'efficacité de l'OPD et fournissent des pistes pratiques pour concevoir des méthodes de post-entraînement plus efficaces pour les grands modèles de langage.

English

On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, existing studies largely attribute this advantage to denser and more stable supervision, while the parameter-level mechanisms underlying OPD's efficiency remain poorly understood. In this work, we argue that OPD's efficiency stems from a form of ``foresight'': it establishes a stable update trajectory toward the final model early in training. This foresight manifests in two aspects. First, at the Module-Allocation Level, OPD identifies regions with low marginal utility and concentrates updates on modules that are more critical to reasoning. Second, at the Update-Direction Level, OPD exhibits stronger low-rank concentration, with its dominant subspaces aligning closely with the final update subspace early in training. Building on these findings, we propose EffOPD, a plug-and-play acceleration method that speeds up OPD by adaptively selecting an extrapolation step size and moving along the current update direction. EffOPD requires no additional trainable modules or complex hyperparameter tuning, and achieves an average training acceleration of 3times while maintaining comparable final performance. Overall, our findings provide a parameter-dynamics perspective for understanding the efficiency of OPD and offer practical insights for designing more efficient post-training methods for large language models.