Supervision dense, mises à jour éparses : sur la parcimonie et la géométrie de la distillation sur politique

Résumé

La distillation sur politique (OPD) est récemment devenue une méthode de post-entraînement importante car elle combine deux ingrédients souhaitables : les trajectoires sur politique de l'étudiant et une supervision dense de l'enseignant. Cependant, la manière dont ce mélange modifie les paramètres d'un modèle reste floue. À travers plusieurs paires de modèles de langage et de vision-langage ainsi que différents cas d'usage, notre analyse aboutit à deux résultats principaux. En ce qui concerne la parcimonie, les mises à jour de type OPD sont petites et parcimonieuses par coordonnées. Elles sont réparties entre les couches et concernent généralement principalement les FFN. Cette structure parcimonieuse est utile sur le plan opérationnel : entraîner uniquement le sous-réseau découvert permet d'atteindre des performances presque identiques à celles de l'OPD complète. Cependant, l'optimiseur SGD favorisant la parcimonie obtient de moins bons résultats qu'AdamW dans notre ablation d'optimiseur, probablement parce que la supervision dense de l'enseignant préserve des échelles de gradient hétérogènes par coordonnées pour lesquelles la mise à l'échelle adaptative d'AdamW reste utile. En ce qui concerne la géométrie, les mises à jour sont numériquement de rang plein mais spectralement concentrées ; elles se situent principalement en dehors des sous-espaces singuliers principaux des poids sources et tombent de manière disproportionnée sur les coordonnées où les poids sources sont proches de zéro. Ces résultats suggèrent que la supervision dense de l'enseignant ne transforme pas l'OPD en une simple réécriture dense des paramètres ; au contraire, l'OPD conserve des signatures géométriques importantes du post-entraînement sur politique.

English

On-policy distillation (OPD) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting; instead, OPD retains important geometric signatures of on-policy post-training.