Dichte Überwachung, spärliche Aktualisierungen: Über die Sparsität und Geometrie der On-Policy-Destillation

Zusammenfassung

On-Policy-Destillation (OPD) hat sich kürzlich als prominentes Nachbearbeitungsrezept etabliert, da es zwei wünschenswerte Eigenschaften vereint: On-Policy-Studenten-Trajektorien und dichte Lehrerüberwachung. Dennoch bleibt unklar, wie diese Hybridisierung die Parameter eines Modells verändert. Über mehrere Sprach- und Sprach-Bild-Modellpaare sowie Anwendungsfälle hinweg liefert unsere Analyse zwei Hauptergebnisse. Hinsichtlich der Sparsität sind OPD-artige Aktualisierungen klein und koordinatenspars. Sie verteilen sich über die Schichten und sind meist FFN-lastig. Diese spärliche Struktur ist operational nützlich: Das Training allein des entdeckten Subnetzwerks erzielt nahezu die gleiche Leistung wie vollständige OPD. Allerdings schneidet der sparsitätsinduzierende SGD-Optimierer in unserer Optimierer-Ablation schlechter ab als AdamW, vermutlich weil die dichte Lehrerüberwachung heterogene koordinatenweise Gradientenskalierungen bewahrt, bei denen AdamWs adaptive Skalierung weiterhin nützlich ist. Hinsichtlich der Geometrie sind die Aktualisierungen numerisch vollrangig, aber spektral konzentriert; sie liegen meist abseits der Hauptsingularwertunterräume der Quellgewichte und fallen überproportional auf Koordinaten, bei denen die Quellgewichte nahe Null liegen. Diese Ergebnisse legen nahe, dass dichte Lehrerüberwachung OPD nicht in eine gewöhnliche dichte Parameterüberschreibung verwandelt; stattdessen behält OPD wichtige geometrische Signaturen des On-Policy-Post-Trainings.

English

On-policy distillation (OPD) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting; instead, OPD retains important geometric signatures of on-policy post-training.