Плотное обучение, разреженные обновления: о разреженности и геометрии он-полиси дистилляции

Аннотация

Дистилляция на политике (OPD) недавно стала популярным методом пост-тренировки, поскольку объединяет два желаемых компонента: траектории студента на политике и плотное наблюдение учителя. Однако то, как эта гибридная процедура изменяет параметры модели, остается неясным. На нескольких парах языковых и зрительно-языковых моделей и сценариях использования наш анализ выявил два основных результата. Что касается разреженности, обновления в стиле OPD малы и разрежены по координатам. Они распределены по слоям и обычно с преобладанием FFN. Эта разреженная структура полезна на практике: обучение только обнаруженной подсети дает почти такую же производительность, как полная OPD. Однако оптимизатор SGD, индуцирующий разреженность, уступает AdamW в нашем абляции оптимизаторов, вероятно, потому что плотное наблюдение учителя сохраняет гетерогенные покоординатные масштабы градиентов, где адаптивное масштабирование AdamW остается полезным. Что касается геометрии, обновления численно полноранговые, но спектрально сконцентрированы; они в основном лежат вдали от основных сингулярных подпространств исходных весов и непропорционально приходятся на координаты, где исходные веса близки к нулю. Эти результаты показывают, что плотное наблюдение учителя не превращает OPD в обычное плотное переписывание параметров; вместо этого OPD сохраняет важные геометрические признаки пост-тренировки на политике.

English

On-policy distillation (OPD) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting; instead, OPD retains important geometric signatures of on-policy post-training.