Lightning OPD: Optimización Posentrenamiento Eficiente para Modelos de Razonamiento a Gran Escala mediante Destilación de Políticas Fuera de Línea

Resumen

La destilación bajo política (OPD) se ha consolidado como un paradigma eficiente de post-entrenamiento para modelos de lenguaje grandes. Sin embargo, la OPD estándar requiere un servidor de inferencia del modelo profesor activo durante todo el entrenamiento, lo que genera una sobrecarga sustancial de infraestructura. En este trabajo, investigamos si la destilación bajo política puede realizarse sin conexión. Un enfoque natural es precalcular las log-probabilidades del profesor una vez sobre las trazas de SFT y reutilizarlas durante el entrenamiento. En la práctica, sin embargo, esta variante sin conexión no logra igualar de forma fiable el rendimiento de la OPD estándar. Para entender esta discrepancia, identificamos una condición previamente pasada por alta que es crítica para cualquier canalización de OPD, a la que denominamos consistencia del profesor. Esta condición requiere que se utilice el mismo modelo profesor tanto para el ajuste fino supervisado (SFT) como para la OPD. Demostramos que violar la consistencia del profesor introduce un sesgo de gradiente irreducible, causando que tanto la OPD sin conexión como la en línea converjan a un punto fijo subóptimo, independientemente de la duración del entrenamiento. Basándonos en esta idea, proponemos Lightning OPD, un marco de destilación bajo política sin conexión que hace cumplir la consistencia del profesor precalculando las log-probabilidades del profesor sobre las trazas de SFT. Este diseño elimina por completo la necesidad de un servidor profesor activo. Además, demostramos que, bajo consistencia del profesor, Lightning OPD comparte el mismo óptimo que la OPD estándar, con una discrepancia de gradiente acotada y un efecto de regularización implícito que ayuda a prevenir la deriva de la política. Experimentos exhaustivos en razonamiento matemático y generación de código demuestran que Lightning OPD logra un rendimiento de vanguardia con una eficiencia significativamente mejorada. Partiendo de un modelo Qwen3-8B-Base inicializado con SFT, Lightning OPD alcanza un 69.9% en AIME 2024 en tan solo 30 horas de GPU, logrando una aceleración de 4.0x sobre la OPD estándar y reduciendo sustancialmente la barrera de entrada para la investigación académica sobre el post-entrenamiento de LLM.

English

On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, standard OPD requires a live teacher inference server throughout training, resulting in substantial infrastructure overhead. In this work, we investigate whether on-policy distillation can be performed offline. A natural approach is to precompute teacher log-probabilities once over SFT rollouts and reuse them during training. In practice, however, this offline variant fails to reliably match the performance of standard OPD. To understand this discrepancy, we identify a previously overlooked condition that is critical for any OPD pipeline, which we term teacher consistency. This condition requires that the same teacher model be used for both supervised fine-tuning and OPD. We show that violating teacher consistency introduces an irreducible gradient bias, causing both offline and online OPD to converge to a suboptimal fixed point regardless of training duration. Building on this insight, we propose Lightning OPD, an offline on-policy distillation framework that enforces teacher consistency by precomputing teacher log-probabilities over SFT rollouts. This design eliminates the need for a live teacher server entirely. We further show that, under teacher consistency, Lightning OPD shares the same optimum as standard OPD, with bounded gradient discrepancy and an implicit regularization effect that helps prevent policy drift. Extensive experiments on mathematical reasoning and code generation demonstrate that Lightning OPD achieves state-of-the-art performance with significantly improved efficiency. Starting from an SFT-initialized Qwen3-8B-Base model, Lightning OPD reaches 69.9% on AIME 2024 in just 30 GPU hours, achieving a 4.0x speedup over standard OPD and substantially lowering the barrier to entry for academic research on LLM post-training.

Lightning OPD: Optimización Posentrenamiento Eficiente para Modelos de Razonamiento a Gran Escala mediante Destilación de Políticas Fuera de Línea

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Resumen

Support