Lightning OPD: Эффективное посттренировочное обучение больших моделей рассуждений с помощью офлайн-политического дистилляции

Аннотация

Он-политическая дистилляция (OPD) стала эффективной парадигмой пост-обучения больших языковых моделей. Однако стандартная OPD требует работы сервера вывода учителя на протяжении всего обучения, что приводит к значительным накладным расходам на инфраструктуру. В данной работе мы исследуем возможность выполнения он-политической дистилляции в автономном режиме. Естественным подходом является предварительное однократное вычисление лог-вероятностей учителя на SFT-траекториях и их повторное использование во время обучения. Однако на практике этот автономный вариант не позволяет надежно достичь производительности стандартной OPD. Чтобы понять это расхождение, мы выявляем ранее упускавшееся из виду условие, критически важное для любого OPD-конвейера, которое мы называем **согласованностью учителя**. Это условие требует использования одной и той же модели учителя как для контролируемого тонкого настройки, так и для OPD. Мы показываем, что нарушение согласованности учителя вносит несводимую систематическую ошибку градиента, приводя к сходимости как автономной, так и онлайновой OPD к субоптимальной точке независимо от продолжительности обучения. Основываясь на этом наблюдении, мы предлагаем **Lightning OPD** — автономную систему он-политической дистилляции, которая обеспечивает согласованность учителя за счет предварительного вычисления лог-вероятностей учителя на SFT-траекториях. Эта конструкция полностью устраняет необходимость в работающем сервере учителя. Мы также показываем, что при соблюдении согласованности учителя Lightning OPD имеет тот же оптимум, что и стандартная OPD, с ограниченным расхождением градиентов и эффектом неявной регуляризации, который помогает предотвращать дрейф политики. Многочисленные эксперименты по математическим рассуждениям и генерации кода демонстрируют, что Lightning OPD достигает передовой производительности при значительном повышении эффективности. Начиная с SFT-инициализированной модели Qwen3-8B-Base, Lightning OPD достигает 69.9% на AIME 2024 всего за 30 GPU-часов, обеспечивая ускорение в 4.0 раза по сравнению со стандартной OPD и существенно снижая порог входа для академических исследований в области пост-обучения LLM.

English

On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, standard OPD requires a live teacher inference server throughout training, resulting in substantial infrastructure overhead. In this work, we investigate whether on-policy distillation can be performed offline. A natural approach is to precompute teacher log-probabilities once over SFT rollouts and reuse them during training. In practice, however, this offline variant fails to reliably match the performance of standard OPD. To understand this discrepancy, we identify a previously overlooked condition that is critical for any OPD pipeline, which we term teacher consistency. This condition requires that the same teacher model be used for both supervised fine-tuning and OPD. We show that violating teacher consistency introduces an irreducible gradient bias, causing both offline and online OPD to converge to a suboptimal fixed point regardless of training duration. Building on this insight, we propose Lightning OPD, an offline on-policy distillation framework that enforces teacher consistency by precomputing teacher log-probabilities over SFT rollouts. This design eliminates the need for a live teacher server entirely. We further show that, under teacher consistency, Lightning OPD shares the same optimum as standard OPD, with bounded gradient discrepancy and an implicit regularization effect that helps prevent policy drift. Extensive experiments on mathematical reasoning and code generation demonstrate that Lightning OPD achieves state-of-the-art performance with significantly improved efficiency. Starting from an SFT-initialized Qwen3-8B-Base model, Lightning OPD reaches 69.9% on AIME 2024 in just 30 GPU hours, achieving a 4.0x speedup over standard OPD and substantially lowering the barrier to entry for academic research on LLM post-training.

Lightning OPD: Эффективное посттренировочное обучение больших моделей рассуждений с помощью офлайн-политического дистилляции

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Аннотация

Support