Menos é Mais: Rollout de Parada Precoce para Destilação On-Policy

Resumo

A destilação on-policy surgiu recentemente como uma alternativa promissora à imitação padrão em nível de sequência, treinando um aluno ao pontuar seus próprios rollouts com um modelo professor. No entanto, observamos o problema de "Decaimento do Professor Off-Policy" neste paradigma: para os tokens posteriores, com a trajetória anterior do aluno como contexto que é off-policy para o professor, a capacidade do professor de produzir uma pontuação corretiva decai, podendo regredir ao comportamento de conclusão de token aprendido na fase de pré-treinamento. Verificamos empiricamente esse problema e propomos o Rollout de Parada Antecipada (ESR) para corrigi-lo: uma estratégia de destilação simples, porém eficaz, que simplesmente restringe a geração do rollout aos primeiros tokens de resposta. Mostramos que o ESR supera o desempenho do OPD com rollout completo em diferentes tamanhos de modelo, famílias, tarefas e regimes de treinamento, além de exibir eficiência de GPU e estabilidade de treinamento muito maiores, especialmente em cenários entre famílias de modelos. Investigamos ainda o mecanismo por trás desse desempenho surpreendente e descobrimos os efeitos de "Alinhamento em Cascata" e "Compromisso com Sub-modo" do ESR, que podem explicar por que ele funciona de forma eficaz e, às vezes, até supera o desempenho do modelo professor. Além disso, mostramos que essa estratégia de seleção de tokens baseada em posição não pode ser totalmente explicada pela divergência KL e pelos sinais de entropia.

English

On-policy distillation has recently emerged as a promising alternative to standard sequence-level imitation, training a student by scoring its own rollouts with a teacher model. However, we observe ``Off-policy Teacher Decay'' problem in this paradigm: for the later tokens, with student's earlier trajectory as context that is off-policy to the teacher, the teacher's ability to produce a corrective score would decay, and may fall back to token-completion behavior learned in the pre-training stage. We empirically verify this problem, and we propose Early Stopping Rollout (ESR) to fix it: a simple yet effective distillation strategy that simply restricts the rollout generation to the first response tokens. We show that ESR both surpasses the full rollout OPD performance across model size, family, tasks and training regime, and exhibit much higher GPU efficiency and training stability, especially under cross model family scenarios. We further investigate the mechanism behind this surprising performance and discovered "Cascading Alignment" and "Sub-mode Commitment" effect of ESR that may explain why it works effectively and even sometimes exceeding the teacher model performance. Besides, we show that this position-based token selection strategy cannot be fully explainable by KL divergence and entropy signals.