UloRL: 대형 언어 모델의 추론 능력 향상을 위한 초장형 출력 강화 학습 접근법
UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities
July 26, 2025
저자: Dong Du, Shulin Liu, Tao Yang, Shaohua Chen, Yang Li
cs.AI
초록
최근 대규모 언어 모델(LLM)의 발전은 검증 가능한 보상을 통한 강화 학습(RLVR)이 확장된 출력 시퀀스를 통해 추론 능력을 향상시킬 수 있는 잠재력을 강조해 왔습니다. 그러나 기존의 RL 프레임워크는 초장기 출력을 처리할 때 긴 꼬리 시퀀스 분포와 훈련 중 엔트로피 붕괴로 인해 비효율성을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델의 추론 능력을 발전시키기 위한 초장기 출력 강화 학습(UloRL) 접근법을 제안합니다. 구체적으로, 우리는 초장기 출력 디코딩을 짧은 세그먼트로 나누어 긴 꼬리 샘플로 인한 지연을 완화함으로써 효율적인 훈련을 가능하게 합니다. 또한, 엔트로피 붕괴를 방지하기 위해 잘 마스터된 긍정적 토큰(MPT)의 동적 마스킹을 도입했습니다. 실험 결과는 우리의 접근법의 효과를 입증합니다. Qwen3-30B-A3B 모델에서 세그먼트 롤아웃을 통한 RL은 훈련 속도를 2.06배 증가시켰으며, 128k 토큰 출력을 사용한 RL 훈련은 AIME2025에서 70.9%에서 85.1%로, BeyondAIME에서 50.7%에서 61.9%로 모델의 성능을 향상시켰고, Qwen3-235B-A22B를 능가하는 놀라운 성과를 보였습니다. 이러한 결과는 초장기 시퀀스 생성을 통해 LLM의 추론 능력을 발전시킬 수 있는 우리의 방법의 잠재력을 강조합니다. 우리는 커뮤니티의 추가 사용을 위해 코드와 모델을 공개할 예정입니다.
English
Recent advances in large language models (LLMs) have highlighted the
potential of reinforcement learning with verifiable rewards (RLVR) to enhance
reasoning capabilities through extended output sequences. However, traditional
RL frameworks face inefficiencies when handling ultra-long outputs due to
long-tail sequence distributions and entropy collapse during training. To
address these challenges, we propose an Ultra-Long Output Reinforcement
Learning (UloRL) approach for advancing large language models' reasoning
abilities. Specifically, we divide ultra long output decoding into short
segments, enabling efficient training by mitigating delays caused by long-tail
samples. Additionally, we introduce dynamic masking of well-Mastered Positive
Tokens (MPTs) to prevent entropy collapse. Experimental results demonstrate the
effectiveness of our approach. On the Qwen3-30B-A3B model, RL with segment
rollout achieved 2.06x increase in training speed, while RL training with
128k-token outputs improves the model's performance on AIME2025 from 70.9\% to
85.1\% and on BeyondAIME from 50.7\% to 61.9\%, even surpassing Qwen3-235B-A22B
with remarkable gains. These findings underscore the potential of our methods
to advance the reasoning capabilities of LLMs with ultra-long sequence
generation. We will release our code and model for further use by the
community.