Lightning OPD: Effiziente Nachbearbeitung für große Reasoning-Modelle durch Offline On-Policy-Distillation

Zusammenfassung

Die On-Policy-Destillation (OPD) hat sich als effizientes Paradigma für das Nachtraining großer Sprachmodelle etabliert. Standard-OPD erfordert jedoch während des gesamten Trainings einen aktiven Teacher-Inference-Server, was einen erheblichen Infrastrukturaufwand verursacht. In dieser Arbeit untersuchen wir, ob On-Policy-Destillation offline durchgeführt werden kann. Ein naheliegender Ansatz ist, die Teacher-Log-Wahrscheinlichkeiten einmalig über SFT-Rollouts vorzuberechnen und sie während des Trainings wiederzuverwenden. In der Praxis scheitert diese Offline-Variante jedoch daran, die Leistung der Standard-OPD zuverlässig zu erreichen. Um diese Diskrepanz zu verstehen, identifizieren wir eine bisher übersehene Bedingung, die für jede OPD-Pipeline kritisch ist und die wir als *Teacher-Konsistenz* bezeichnen. Diese Bedingung erfordert, dass dasselbe Teacher-Modell sowohl für das supervised Fine-Tuning als auch für die OPD verwendet wird. Wir zeigen, dass eine Verletzung der Teacher-Konsistenz einen irreduziblen Gradienten-Bias einführt, der sowohl offline als auch online OPD dazu veranlasst, unabhängig von der Trainingsdauer zu einem suboptimalen Fixpunkt zu konvergieren. Aufbauend auf dieser Erkenntnis schlagen wir Lightning OPD vor, ein Offline-On-Policy-Destillations-Framework, das Teacher-Konsistenz durch Vorberechnung der Teacher-Log-Wahrscheinlichkeiten über SFT-Rollouts erzwingt. Dieser Entwurf macht einen aktiven Teacher-Server vollständig überflüssig. Wir zeigen weiter, dass Lightning OPD unter Teacher-Konsistenz dasselbe Optimum wie Standard-OPD teilt, mit begrenzter Gradientendiskrepanz und einem impliziten Regularisierungseffekt, der Policy-Drift verhindert. Umfangreiche Experimente im Bereich mathematisches Reasoning und Code-Generierung belegen, dass Lightning OPD state-of-the-art Leistung bei deutlich verbesserter Effizienz erreicht. Ausgehend von einem SFT-initialisierten Qwen3-8B-Base-Modell erreicht Lightning OPD auf AIME 2024 69,9 % in nur 30 GPU-Stunden, was eine 4,0-fache Beschleunigung gegenüber Standard-OPD darstellt und die Einstiegshürde für die akademische Forschung zum Nachtraining von LLMs erheblich senkt.

English

On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, standard OPD requires a live teacher inference server throughout training, resulting in substantial infrastructure overhead. In this work, we investigate whether on-policy distillation can be performed offline. A natural approach is to precompute teacher log-probabilities once over SFT rollouts and reuse them during training. In practice, however, this offline variant fails to reliably match the performance of standard OPD. To understand this discrepancy, we identify a previously overlooked condition that is critical for any OPD pipeline, which we term teacher consistency. This condition requires that the same teacher model be used for both supervised fine-tuning and OPD. We show that violating teacher consistency introduces an irreducible gradient bias, causing both offline and online OPD to converge to a suboptimal fixed point regardless of training duration. Building on this insight, we propose Lightning OPD, an offline on-policy distillation framework that enforces teacher consistency by precomputing teacher log-probabilities over SFT rollouts. This design eliminates the need for a live teacher server entirely. We further show that, under teacher consistency, Lightning OPD shares the same optimum as standard OPD, with bounded gradient discrepancy and an implicit regularization effect that helps prevent policy drift. Extensive experiments on mathematical reasoning and code generation demonstrate that Lightning OPD achieves state-of-the-art performance with significantly improved efficiency. Starting from an SFT-initialized Qwen3-8B-Base model, Lightning OPD reaches 69.9% on AIME 2024 in just 30 GPU hours, achieving a 4.0x speedup over standard OPD and substantially lowering the barrier to entry for academic research on LLM post-training.

Lightning OPD: Effiziente Nachbearbeitung für große Reasoning-Modelle durch Offline On-Policy-Distillation

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Zusammenfassung

Support