Ripensare la distillazione on-policy per i grandi modelli linguistici: fenomenologia, meccanismi e ricette

Abstract

La distillazione on-policy (OPD) è diventata una tecnica fondamentale nel post-addestramento dei grandi modelli linguistici, sebbene la sua dinamica di addestramento rimanga poco compresa. Questo articolo fornisce un'indagine sistematica delle dinamiche e dei meccanismi dell'OPD. Identifichiamo innanzitutto due condizioni che determinano il successo o il fallimento dell'OPD: (i) lo studente e il docente dovrebbero condividere schemi di pensiero compatibili; e (ii) anche con schemi di pensiero coerenti e punteggi più elevati, il docente deve offrire capacità genuinamente nuove oltre a quelle che lo studente ha già visto durante l'addestramento. Convalidiamo questi risultati attraverso una distillazione inversa da debole a forte, dimostrando che docenti della stessa famiglia (1,5B e 7B) sono indistinguibili dal punto di vista distributivo da quello dello studente. Analizzando il meccanismo a livello di token, mostriamo che l'OPD di successo è caratterizzata da un allineamento progressivo sui token ad alta probabilità negli stati visitati dallo studente, un piccolo insieme condiviso di token che concentra la maggior parte della massa di probabilità (97%-99%). Proponiamo inoltre due strategie pratiche per recuperare un'OPD fallita: cold start off-policy e selezione dei prompt allineata al docente. Infine, dimostriamo che l'apparente pasto gratis dell'OPD, costituito da una ricompensa densa a livello di token, ha un costo, sollevando la questione se l'OPD possa scalare alla distillazione su orizzonti lunghi.

English

On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.

Ripensare la distillazione on-policy per i grandi modelli linguistici: fenomenologia, meccanismi e ricette

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Abstract

Support