Repensando a Destilação On-Policy de Modelos de Linguagem de Grande Porte: Fenomenologia, Mecanismo e Receita

Resumo

A destilação on-policy (OPD) tornou-se uma técnica central no pós-treinamento de grandes modelos de linguagem, embora sua dinâmica de treinamento permaneça pouco compreendida. Este artigo fornece uma investigação sistemática da dinâmica e dos mecanismos da OPD. Primeiro, identificamos que duas condições governam se a OPD tem sucesso ou falha: (i) o aluno e o professor devem compartilhar padrões de pensamento compatíveis; e (ii) mesmo com padrões de pensamento consistentes e pontuações mais altas, o professor deve oferecer capacidades genuinamente novas além daquelas que o aluno viu durante o treinamento. Validamos essas descobertas por meio da destilação reversa weak-to-strong, mostrando que professores de 1,5B e 7B da mesma família são indistinguíveis do ponto de vista distribucional da perspectiva do aluno. Investigando o mecanismo em nível de token, demonstramos que a OPD bem-sucedida é caracterizada por um alinhamento progressivo em tokens de alta probabilidade nos estados visitados pelo aluno, um pequeno conjunto compartilhado de tokens que concentra a maior parte da massa de probabilidade (97%-99%). Propomos ainda duas estratégias práticas para recuperar a OPD quando ela falha: inicialização a frio off-policy e seleção de prompts alinhada ao professor. Por fim, mostramos que o aparente almoço grátis da OPD – a recompensa densa em nível de token – tem um custo, levantando a questão de se a OPD pode ser dimensionada para destilações de longo horizonte.

English

On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.

Repensando a Destilação On-Policy de Modelos de Linguagem de Grande Porte: Fenomenologia, Mecanismo e Receita

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Resumo

Support