Supervisión densa, actualizaciones dispersas: Sobre la dispersión y geometría de la destilación on-policy

Resumen

La destilación en política (OPD, por sus siglas en inglés) se ha convertido recientemente en una receta destacada de post-entrenamiento, ya que combina dos ingredientes deseables: trayectorias del estudiante en política y supervisión densa del profesor. Sin embargo, cómo esta hibridación modifica los parámetros de un modelo sigue sin estar claro. A través de varios pares de modelos de lenguaje y visión-lenguaje, así como casos de uso, nuestro análisis arroja dos hallazgos principales. En cuanto a la dispersión, las actualizaciones de tipo OPD son pequeñas y dispersas en coordenadas. Se distribuyen entre las capas y suelen tener un predominio de las FFN (redes feed-forward). Esta estructura dispersa es operativamente útil: entrenar únicamente la subred descubierta recupera un rendimiento casi idéntico al de la OPD completa. No obstante, el optimizador SGD que induce dispersión rinde por debajo de AdamW en nuestra ablación de optimizadores, probablemente porque la supervisión densa del profesor preserva escalas de gradiente heterogéneas por coordenadas, donde la adaptación de escala de AdamW sigue siendo útil. En cuanto a la geometría, las actualizaciones son numéricamente de rango completo, pero espectralmente concentradas; se sitúan mayoritariamente lejos de los subespacios singulares principales de los pesos fuente y recaen de forma desproporcionada en coordenadas donde los pesos fuente están cerca de cero. Estos hallazgos sugieren que la supervisión densa del profesor no convierte la OPD en una reescritura densa ordinaria de parámetros; en cambio, la OPD retiene firmas geométricas importantes del post-entrenamiento en política.

English

On-policy distillation (OPD) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, OPD-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full OPD. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn OPD into ordinary dense parameter rewriting; instead, OPD retains important geometric signatures of on-policy post-training.