Преодоление энтропийных границ: ускорение обучения RL посредством MTP с режекторной выборкой

Аннотация

Обучение с подкреплением (RL) стало ключевым компонентом современных больших языковых моделей, однако этап развертывания (rollout) остается основным узким местом в конвейерах обучения с подкреплением. Хотя предсказание нескольких токенов (Multi-Token Prediction, MTP) предлагает естественное решение для ускорения развертывания с помощью спекулятивного декодирования, многие исследования отмечают, что коэффициент принятия MTP значительно снижается во время RL-обучения, что приводит к ограниченному ускорению. Для решения этой проблемы мы представляем Bebop — систематическое исследование MTP в пост-обучении больших языковых моделей (LLM) и предлагаем практические рецепты интеграции MTP в крупномасштабные конвейеры обучения с подкреплением. Во-первых, мы показываем, что коэффициент принятия MTP фундаментально ограничен флуктуациями энтропии модели, что демонстрирует четкую отрицательную линейную зависимость с ростом энтропии на этапе RL. Во-вторых, мы показываем, что вероятностная выборка с отклонением (rejection sampling) в значительной степени снижает возмущения, вносимые энтропией в RL, по сравнению с жадным семплированием черновика. Кроме того, мы выявляем, что традиционные цели обучения MTP (кросс-энтропия или KL) являются субоптимальными в таких условиях, и поэтому мы предлагаем новую сквозную функцию потерь TV (полной вариации), которая напрямую оптимизирует коэффициент принятия многошаговой выборки с отклонением, что дает улучшение коэффициента принятия примерно на 10%, достигая до 95% коэффициента принятия и до 25% дополнительного прироста пропускной способности вывода в задачах математического рассуждения, генерации кода и агентных задачах. В-третьих, мы тестируем различные стратегии онлайн-обучения MTP во время RL и показываем, что предварительное обучение MTP до RL с использованием сквозных TV-потерь и выборки с отклонением обеспечивает стабильный коэффициент принятия и ускорение на протяжении всего RL, устраняя необходимость в дорогостоящем онлайн-обновлении MTP. Мы предоставляем обширные эксперименты и анализ, подтверждающие наши выводы. Результаты экспериментов показывают, что наш метод достигает до 1.8-кратного сквозного ускорения в асинхронном обучении с подкреплением моделей Qwen3.5, Qwen3.6 и Qwen3.7.

English

Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural solution to accelerate rollouts through speculative decoding, many studies have observed that MTP acceptance rates degrade significantly during RL training, leading to limited speedup performance. To address this bottleneck, we present Bebop, a systematic study of MTP in LLM post-training, and offer practical recipes to integrate MTP into large-scale RL pipelines. First, we reveal that the MTP acceptance rate is fundamentally bounded by the fluctuation of model entropy, which demonstrates a clear negative linear relationship with the rise of entropy in the RL stage. Second, we show that probabilistic rejection sampling largely alleviates the disturbance introduced by entropy in RL compared to greedy draft sampling. We further identify that the conventional MTP training objectives (cross-entropy or KL) are suboptimal in such settings, and therefore we propose a novel end-to-end TV loss that directly optimizes multi-step rejection sampling acceptance rate, yielding ~10% acceptance rate improvements, achieving up to 95% acceptance rates and up to 25% extra inference throughput gains across mathematical reasoning, code generation, and agentic tasks. Third, we test various online MTP training strategies during RL and show that pre-RL MTP training with e2e TV loss and rejection sampling achieves a consistent acceptance rate and speedup throughout the entire RL, eliminating the need for costly online MTP updating. We provide extensive experiments and analysis that validate our findings. Experimental results show our method achieves up to 1.8x end-to-end acceleration in async RL training of Qwen3.5, Qwen3.6, and Qwen3.7 models.