Sur la géométrie de la distillation on-policy

Résumé

La distillation sur politique (OPD) est de plus en plus utilisée pour améliorer le raisonnement des grands modèles de langage, mais ses dynamiques d’entraînement restent mal comprises. Nous caractérisons la trajectoire des mises à jour OPD dans l’espace des paramètres et la comparons à l’ajustement fin supervisé (SFT) et à l’apprentissage par renforcement avec récompenses vérifiables (RLVR). Un ensemble de diagnostics dans l’espace des paramètres place systématiquement l’OPD dans un régime relâché hors direction principale : par rapport au SFT, ses mises à jour affectent moins de poids et évitent plus fortement les directions principales, tandis que comparée au RLVR, elle reste moins étroitement contrainte. Au-delà de cette localisation statique, l’OPD présente un verrouillage de sous-espace : ses mises à jour cumulées pénètrent rapidement dans un canal étroit de faible dimension. Contraindre l’entraînement au sous-espace de mise à jour formé en début d’entraînement préserve les performances de l’OPD mais dégrade substantiellement le SFT, ce qui indique que le sous-espace verrouillé est fonctionnellement suffisant pour l’OPD. Des expériences de contrôle montrent en outre que l’éparpillement des jetons de mise à jour et le décalage de la génération de rouleaux hors politique préservent la dynamique de rang, tandis que le mélange de l’objectif OPD avec le RLVR la modifie. Globalement, ces résultats suggèrent que l’OPD n’est pas simplement un point intermédiaire entre le SFT et le RLVR, mais induit sa propre géométrie de mise à jour dans l’espace des paramètres.

English

On-policy distillation (OPD) is increasingly used to improve large language model reasoning, but its training dynamics remain poorly understood. We characterize the trajectory of OPD updates in parameter space and compare it with supervised fine-tuning (SFT) and reinforcement learning with verifiable rewards (RLVR). A suite of parameter-space diagnostics consistently places OPD in a relaxed off-principal regime: compared with SFT, its updates affect fewer weights and avoid principal directions more strongly, while compared with RLVR, they remain less tightly constrained. Beyond this static localization, OPD exhibits subspace locking: its cumulative updates rapidly enter a narrow low-dimensional channel. Constraining training to the update subspace formed early in training preserves OPD performance but substantially degrades SFT, indicating that the locked subspace is functionally sufficient for OPD. Control experiments further show that sparsifying the update tokens and shifting rollout generation off-policy preserve the rank dynamics, whereas mixing the OPD objective with RLVR changes them. Overall, these results suggest that OPD is not merely an intermediate point between SFT and RLVR, but induces its own update geometry in parameter space.