Lightning OPD: Pós-treinamento Eficiente para Grandes Modelos de Raciocínio com Distilação On-Policy Offline

Resumo

A destilação on-policy (OPD) emergiu como um paradigma eficiente de pós-treinamento para modelos de linguagem grandes. No entanto, a OPD padrão requer um servidor de inferência do professor ativo durante todo o treinamento, resultando em uma sobrecarga substancial de infraestrutura. Neste trabalho, investigamos se a destilação on-policy pode ser realizada offline. Uma abordagem natural é pré-calcular as log-probabilidades do professor uma vez sobre as rollouts de SFT e reutilizá-las durante o treinamento. Na prática, porém, esta variante offline falha em igualar de forma confiável o desempenho da OPD padrão. Para entender esta discrepância, identificamos uma condição previamente negligenciada que é crítica para qualquer pipeline de OPD, a qual denominamos consistência do professor. Esta condição requer que o mesmo modelo professor seja usado tanto para o ajuste fino supervisionado (SFT) quanto para a OPD. Mostramos que violar a consistência do professor introduz um viés de gradiente irredutível, fazendo com que tanto a OPD offline quanto a online convirjam para um ponto fixo subótimo, independentemente da duração do treinamento. Com base nessa percepção, propomos a Lightning OPD, uma estrutura de destilação on-policy offline que impõe a consistência do professor pré-calculando as log-probabilidades do professor sobre as rollouts de SFT. Este projeto elimina completamente a necessidade de um servidor professor ativo. Mostramos ainda que, sob consistência do professor, a Lightning OPD compartilha o mesmo ótimo que a OPD padrão, com discrepância de gradiente limitada e um efeito de regularização implícita que ajuda a evitar o desvio da política. Experimentos extensos em raciocínio matemático e geração de código demonstram que a Lightning OPD alcança desempenho de última geração com eficiência significativamente melhorada. Partindo de um modelo Qwen3-8B-Base inicializado com SFT, a Lightning OPD atinge 69,9% na AIME 2024 em apenas 30 horas de GPU, alcançando uma aceleração de 4,0x em relação à OPD padrão e reduzindo substancialmente a barreira de entrada para a pesquisa acadêmica sobre o pós-treinamento de LLMs.

English

On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, standard OPD requires a live teacher inference server throughout training, resulting in substantial infrastructure overhead. In this work, we investigate whether on-policy distillation can be performed offline. A natural approach is to precompute teacher log-probabilities once over SFT rollouts and reuse them during training. In practice, however, this offline variant fails to reliably match the performance of standard OPD. To understand this discrepancy, we identify a previously overlooked condition that is critical for any OPD pipeline, which we term teacher consistency. This condition requires that the same teacher model be used for both supervised fine-tuning and OPD. We show that violating teacher consistency introduces an irreducible gradient bias, causing both offline and online OPD to converge to a suboptimal fixed point regardless of training duration. Building on this insight, we propose Lightning OPD, an offline on-policy distillation framework that enforces teacher consistency by precomputing teacher log-probabilities over SFT rollouts. This design eliminates the need for a live teacher server entirely. We further show that, under teacher consistency, Lightning OPD shares the same optimum as standard OPD, with bounded gradient discrepancy and an implicit regularization effect that helps prevent policy drift. Extensive experiments on mathematical reasoning and code generation demonstrate that Lightning OPD achieves state-of-the-art performance with significantly improved efficiency. Starting from an SFT-initialized Qwen3-8B-Base model, Lightning OPD reaches 69.9% on AIME 2024 in just 30 GPU hours, achieving a 4.0x speedup over standard OPD and substantially lowering the barrier to entry for academic research on LLM post-training.

Lightning OPD: Pós-treinamento Eficiente para Grandes Modelos de Raciocínio com Distilação On-Policy Offline

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Resumo

Support