Lightning OPD: Efficiënte Nabewerking voor Grote Redeneermodellen met Offline On-Policy Distillatie

Samenvatting

On-policy distillatie (OPD) is naar voren gekomen als een efficiënt paradigma voor het na-trainen van grote taalmodellen. De standaard OPD-aanpak vereist echter een live teacher-inferentieserver gedurende de hele trainingsperiode, wat aanzienlijke infrastructuurkosten met zich meebrengt. In dit werk onderzoeken we of on-policy distillatie offline kan worden uitgevoerd. Een voor de hand liggende aanpak is om de teacher-log-kansen eenmalig vooraf te berekenen over SFT-rollouts en deze tijdens de training te hergebruiken. In de praktijk blijkt deze offline variant echter niet consistent de prestaties van standaard OPD te evenaren. Om dit prestatieverschil te begrijpen, identificeren we een voorheen over het hoofd gezien criterium dat cruciaal is voor elke OPD-pijplijn, en dat we *teacher-consistentie* noemen. Dit criterium vereist dat hetzelfde teacher-model wordt gebruikt voor zowel supervised fine-tuning (SFT) als voor OPD. We tonen aan dat het schenden van teacher-consistentie een onherleidbare bias in de gradient introduceert, waardoor zowel offline als online OPD convergeert naar een suboptimaal vast punt, ongeacht de trainingsduur. Voortbouwend op dit inzicht, stellen we Lightning OPD voor, een offline on-policy distillatieraamwerk dat teacher-consistentie afdwingt door teacher-log-kansen vooraf te berekenen over SFT-rollouts. Dit ontwerp elimineert de noodzaak voor een live teacher-server volledig. We tonen verder aan dat, onder teacher-consistentie, Lightning OPD hetzelfde optimum deelt als standaard OPD, met een begrensde gradientafwijking en een impliciet regularisatie-effect dat helpt beleidsafwijking (policy drift) te voorkomen. Uitgebreide experimenten op het gebied van wiskundig redeneren en codegeneratie tonen aan dat Lightning OPD state-of-the-art prestaties bereikt met een aanzienlijk verbeterde efficiëntie. Uitgaande van een met SFT geïnitialiseerd Qwen3-8B-Base model, bereikt Lightning OPD 69,9% op AIME 2024 in slechts 30 GPU-uren, wat een 4,0x versnelling oplevert ten opzichte van standaard OPD en de drempel voor academisch onderzoek naar LLM-na-training aanzienlijk verlaagt.

English

On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, standard OPD requires a live teacher inference server throughout training, resulting in substantial infrastructure overhead. In this work, we investigate whether on-policy distillation can be performed offline. A natural approach is to precompute teacher log-probabilities once over SFT rollouts and reuse them during training. In practice, however, this offline variant fails to reliably match the performance of standard OPD. To understand this discrepancy, we identify a previously overlooked condition that is critical for any OPD pipeline, which we term teacher consistency. This condition requires that the same teacher model be used for both supervised fine-tuning and OPD. We show that violating teacher consistency introduces an irreducible gradient bias, causing both offline and online OPD to converge to a suboptimal fixed point regardless of training duration. Building on this insight, we propose Lightning OPD, an offline on-policy distillation framework that enforces teacher consistency by precomputing teacher log-probabilities over SFT rollouts. This design eliminates the need for a live teacher server entirely. We further show that, under teacher consistency, Lightning OPD shares the same optimum as standard OPD, with bounded gradient discrepancy and an implicit regularization effect that helps prevent policy drift. Extensive experiments on mathematical reasoning and code generation demonstrate that Lightning OPD achieves state-of-the-art performance with significantly improved efficiency. Starting from an SFT-initialized Qwen3-8B-Base model, Lightning OPD reaches 69.9% on AIME 2024 in just 30 GPU hours, achieving a 4.0x speedup over standard OPD and substantially lowering the barrier to entry for academic research on LLM post-training.

Lightning OPD: Efficiënte Nabewerking voor Grote Redeneermodellen met Offline On-Policy Distillatie

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Samenvatting

Support