Dichte supervisie, schaarse updates: Over de sparsiteit en geometrie van on-policy distillatie

Samenvatting

On-policy distillatie (OPD) is recentelijk een prominente post-trainingmethode geworden omdat het twee wenselijke ingrediënten combineert: on-policy studenttrajecten en dichte leraarsupervisie, maar hoe deze hybride de parameters van een model verandert blijft onduidelijk. Over meerdere taal- en visie-taalmodelparen en gebruiksscenario's heen levert onze analyse twee hoofdbevindingen op. Wat betreft schaarste zijn OPD-stijl updates klein en coördinaat-schaars. Ze zijn verdeeld over lagen en zijn meestal FFN-zwaar. Deze schaarse structuur is operationeel nuttig: het trainen van alleen het ontdekte subnetwork herstelt bijna dezelfde prestaties als volledige OPD. Echter, de schaarste-inducerende SGD-optimizer presteert slechter dan AdamW in onze optimizer-ablatie, waarschijnlijk omdat dichte leraarsupervisie heterogene coördinaatsgewijze gradiëntschalen behoudt waar AdamW's adaptieve schaling nuttig blijft. Wat betreft geometrie zijn de updates numeriek volledige rang maar spectraal geconcentreerd; ze liggen meestal ver van de principale singuliere deelruimten van de brongewichten en vallen onevenredig vaak op coördinaten waar de brongewichten dicht bij nul liggen. Deze bevindingen suggereren dat dichte leraarsupervisie OPD niet verandert in gewoon dicht parameterherschrijven; in plaats daarvan behoudt OPD belangrijke geometrische kenmerken van on-policy post-training.

English

On-policy distillation (OPD) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting; instead, OPD retains important geometric signatures of on-policy post-training.