Lightning OPD: Addestramento Post-Allenamento Efficiente per Modelli di Ragionamento di Grandi Dimensioni con Distillazione On-Policy Offline

Abstract

La distillazione on-policy (OPD) è emersa come un paradigma efficiente di post-addestramento per i grandi modelli linguistici. Tuttavia, l'OPD standard richiede un server di inferenza del docente attivo durante tutto l'addestramento, comportando un sovraccarico infrastrutturale sostanziale. In questo lavoro, indaghiamo se la distillazione on-policy possa essere eseguita offline. Un approccio naturale consiste nel precalcolare una volta le log-probabilità del docente sui rollout del SFT e riutilizzarle durante l'addestramento. In pratica, tuttavia, questa variante offline non riesce a eguagliare in modo affidabile le prestazioni dell'OPD standard. Per comprendere questa discrepanza, identifichiamo una condizione precedentemente trascurata che è critica per qualsiasi pipeline OPD, che definiamo consistenza del docente. Questa condizione richiede che lo stesso modello docente sia utilizzato sia per il supervised fine-tuning che per l'OPD. Dimostriamo che violare la consistenza del docente introduce un bias di gradiente irriducibile, causando la convergenza sia dell'OPD offline che online verso un punto fisso subottimale, indipendentemente dalla durata dell'addestramento. Basandoci su questa intuizione, proponiamo Lightning OPD, un framework di distillazione on-policy offline che impone la consistenza del docente precalcolando le log-probabilità del docente sui rollout del SFT. Questo design elimina completamente la necessità di un server docente attivo. Inoltre, dimostriamo che, sotto consistenza del docente, Lightning OPD condivide lo stesso ottimo dell'OPD standard, con una discrepanza di gradiente limitata e un effetto di regolarizzazione implicita che aiuta a prevenire la deriva della policy. Esperimenti estensivi sul ragionamento matematico e sulla generazione di codice dimostrano che Lightning OPD raggiunge prestazioni allo stato dell'arte con un'efficienza significativamente migliorata. Partendo da un modello Qwen3-8B-Base inizializzato con SFT, Lightning OPD raggiunge il 69.9% su AIME 2024 in sole 30 ore GPU, ottenendo un'accelerazione di 4.0x rispetto all'OPD standard e abbassando sostanzialmente la barriera all'ingresso per la ricerca accademica sul post-addestramento degli LLM.

English

On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, standard OPD requires a live teacher inference server throughout training, resulting in substantial infrastructure overhead. In this work, we investigate whether on-policy distillation can be performed offline. A natural approach is to precompute teacher log-probabilities once over SFT rollouts and reuse them during training. In practice, however, this offline variant fails to reliably match the performance of standard OPD. To understand this discrepancy, we identify a previously overlooked condition that is critical for any OPD pipeline, which we term teacher consistency. This condition requires that the same teacher model be used for both supervised fine-tuning and OPD. We show that violating teacher consistency introduces an irreducible gradient bias, causing both offline and online OPD to converge to a suboptimal fixed point regardless of training duration. Building on this insight, we propose Lightning OPD, an offline on-policy distillation framework that enforces teacher consistency by precomputing teacher log-probabilities over SFT rollouts. This design eliminates the need for a live teacher server entirely. We further show that, under teacher consistency, Lightning OPD shares the same optimum as standard OPD, with bounded gradient discrepancy and an implicit regularization effect that helps prevent policy drift. Extensive experiments on mathematical reasoning and code generation demonstrate that Lightning OPD achieves state-of-the-art performance with significantly improved efficiency. Starting from an SFT-initialized Qwen3-8B-Base model, Lightning OPD reaches 69.9% on AIME 2024 in just 30 GPU hours, achieving a 4.0x speedup over standard OPD and substantially lowering the barrier to entry for academic research on LLM post-training.

Lightning OPD: Addestramento Post-Allenamento Efficiente per Modelli di Ragionamento di Grandi Dimensioni con Distillazione On-Policy Offline

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Abstract

Support