Supervisão Densa, Atualizações Esparsas: Sobre a Esparsidade e a Geometria da Destilação On-Policy

Resumo

A destilação on-policy (OPD) tornou-se recentemente uma técnica proeminente de pós-treinamento, pois combina dois ingredientes desejáveis: trajetórias do estudante on-policy e supervisão densa do professor; no entanto, como essa combinação altera os parâmetros de um modelo ainda não está claro. Em vários pares de modelos de linguagem e visão-linguagem e casos de uso, nossa análise revela duas descobertas principais. Sobre esparsidade, as atualizações do estilo OPD são pequenas e esparsas em coordenadas. Elas são distribuídas entre as camadas e geralmente predominam nas FFN. Essa estrutura esparsa é operacionalmente útil: treinar apenas a sub-rede descoberta recupera quase o mesmo desempenho que a OPD completa. No entanto, o otimizador SGD indutor de esparsidade apresenta desempenho inferior ao AdamW em nossa ablação de otimizador, provavelmente porque a supervisão densa do professor preserva escalas heterogêneas de gradientes por coordenada, onde o escalonamento adaptativo do AdamW ainda é útil. Sobre geometria, as atualizações são numericamente de posto completo, mas concentradas espectralmente; elas se situam majoritariamente distantes dos subespaços singulares principais dos pesos fonte e recaem desproporcionalmente sobre coordenadas onde os pesos fonte estão próximos de zero. Essas descobertas sugerem que a supervisão densa do professor não transforma a OPD em uma reescrita densa comum de parâmetros; em vez disso, a OPD retém assinaturas geométricas importantes do pós-treinamento on-policy.

English

On-policy distillation (OPD) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting; instead, OPD retains important geometric signatures of on-policy post-training.