OPRD : Distillation de représentation sur politique

Résumé

La distillation sur politique (OPD) supervise l'élève uniquement dans l'espace de sortie en faisant correspondre les probabilités des tokens suivants. Ce paradime exclusivement centré sur la sortie présente deux limites : (1) la variance d'échantillonnage issue des estimations de Monte Carlo de la divergence KL sur de grands vocabulaires (par exemple, celui de Qwen, d'environ 150 000 tokens) persiste tout au long de l'entraînement, et (2) il traite l'enseignant comme une boîte noire, en rejetant tous les états cachés intermédiaires après la tête du modèle de langage. Nous proposons la distillation de représentations sur politique (OPRD), qui élève la distillation dans l'espace des états cachés en alignant les représentations de l'élève et de l'enseignant à travers des couches sélectionnées sur les mêmes déploiements, contournant entièrement la tête du modèle de langage. Théoriquement, l'OPRD élimine la variance d'échantillonnage et fournit une information structurelle plus riche par couche. Empiriquement, l'OPRD réduit l'écart entre l'élève et l'enseignant sur AIME 2024/2025 et AIMO, tandis que les baselines OPD dans l'espace de sortie plafonnent en dessous de l'enseignant. L'OPRD s'entraîne également 1,44 fois plus vite et utilise 54 % de mémoire en moins que l'OPD top-k. Code : https://github.com/ShenzhiYang2000/OPRD.

English

On-policy distillation (OPD) supervises the student only in output space by matching next-token probabilities. This output-only paradigm has two limits: (1) sampling variance from Monte Carlo KL estimates over large vocabularies (e.g., Qwen's ~150k tokens) persists throughout training, and (2) it treats the teacher as a black-box, discarding all intermediate hidden states after the LM head. We propose On-Policy Representation Distillation (OPRD), which lifts distillation into hidden-state space by aligning student and teacher representations across selected layers on the same rollouts, bypassing the LM head entirely. Theoretically, OPRD eliminates sampling variance and provides richer per-layer structural information. Empirically, OPRD closes the student-teacher gap on AIME 2024/2025 and AIMO, while output-space OPD baselines plateau below the teacher. OPRD also trains 1.44x faster and uses 54% less memory than top-k OPD. Code: https://github.com/ShenzhiYang2000/OPRD.