UloRL: Ультра-длинный выходной подход с подкреплением для улучшения способностей к рассуждению крупных языковых моделей
UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities
July 26, 2025
Авторы: Dong Du, Shulin Liu, Tao Yang, Shaohua Chen, Yang Li
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей (LLM) подчеркнули потенциал обучения с подкреплением с верифицируемыми наградами (RLVR) для улучшения способностей к рассуждению за счет генерации расширенных последовательностей выходных данных. Однако традиционные подходы RL сталкиваются с неэффективностью при обработке сверхдлинных выходных данных из-за распределений последовательностей с длинным хвостом и коллапса энтропии в процессе обучения. Для решения этих проблем мы предлагаем подход Ultra-Long Output Reinforcement Learning (UloRL), направленный на развитие способностей к рассуждению крупных языковых моделей. В частности, мы разделяем декодирование сверхдлинных выходных данных на короткие сегменты, что позволяет повысить эффективность обучения за счет устранения задержек, вызванных длиннохвостыми выборками. Кроме того, мы вводим динамическое маскирование хорошо освоенных положительных токенов (MPTs) для предотвращения коллапса энтропии. Экспериментальные результаты демонстрируют эффективность нашего подхода. На модели Qwen3-30B-A3B обучение с подкреплением с использованием сегментного развертывания позволило увеличить скорость обучения в 2,06 раза, а обучение с выходными данными длиной 128 тысяч токенов улучшило производительность модели на тестах AIME2025 с 70,9% до 85,1% и на BeyondAIME с 50,7% до 61,9%, превзойдя даже модель Qwen3-235B-A22B с заметным отрывом. Эти результаты подчеркивают потенциал наших методов для развития способностей к рассуждению LLM при генерации сверхдлинных последовательностей. Мы опубликуем наш код и модель для дальнейшего использования сообществом.
English
Recent advances in large language models (LLMs) have highlighted the
potential of reinforcement learning with verifiable rewards (RLVR) to enhance
reasoning capabilities through extended output sequences. However, traditional
RL frameworks face inefficiencies when handling ultra-long outputs due to
long-tail sequence distributions and entropy collapse during training. To
address these challenges, we propose an Ultra-Long Output Reinforcement
Learning (UloRL) approach for advancing large language models' reasoning
abilities. Specifically, we divide ultra long output decoding into short
segments, enabling efficient training by mitigating delays caused by long-tail
samples. Additionally, we introduce dynamic masking of well-Mastered Positive
Tokens (MPTs) to prevent entropy collapse. Experimental results demonstrate the
effectiveness of our approach. On the Qwen3-30B-A3B model, RL with segment
rollout achieved 2.06x increase in training speed, while RL training with
128k-token outputs improves the model's performance on AIME2025 from 70.9\% to
85.1\% and on BeyondAIME from 50.7\% to 61.9\%, even surpassing Qwen3-235B-A22B
with remarkable gains. These findings underscore the potential of our methods
to advance the reasoning capabilities of LLMs with ultra-long sequence
generation. We will release our code and model for further use by the
community.