ChatPaper.aiChatPaper

UloRL: Een Ultra-Lang Uitvoer Reinforcement Learning Benadering voor het Verbeteren van de Redeneervaardigheden van Grote Taalmodellen

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities

July 26, 2025
Auteurs: Dong Du, Shulin Liu, Tao Yang, Shaohua Chen, Yang Li
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLMs) hebben het potentieel van reinforcement learning met verifieerbare beloningen (RLVR) benadrukt om redeneervaardigheden te verbeteren door middel van uitgebreide uitvoersequenties. Traditionele RL-frameworks kampen echter met inefficiënties bij het verwerken van ultra-lange uitvoeren vanwege long-tail sequentiedistributies en entropie-instorting tijdens de training. Om deze uitdagingen aan te pakken, stellen we een Ultra-Lange Uitvoer Reinforcement Learning (UloRL) benadering voor om de redeneervaardigheden van grote taalmodellen te bevorderen. Specifiek verdelen we het decoderen van ultra-lange uitvoeren in korte segmenten, waardoor efficiënte training mogelijk wordt door vertragingen veroorzaakt door long-tail voorbeelden te verminderen. Daarnaast introduceren we dynamische maskering van goed beheerste positieve tokens (MPTs) om entropie-instorting te voorkomen. Experimentele resultaten tonen de effectiviteit van onze aanpak aan. Op het Qwen3-30B-A3B model bereikte RL met segment-rollout een 2,06x toename in trainingssnelheid, terwijl RL-training met 128k-token uitvoeren de prestaties van het model op AIME2025 verbeterde van 70,9\% naar 85,1\% en op BeyondAIME van 50,7\% naar 61,9\%, zelfs Qwen3-235B-A22B overtreffend met opmerkelijke winsten. Deze bevindingen onderstrepen het potentieel van onze methoden om de redeneervaardigheden van LLMs te bevorderen met ultra-lange sequentiegeneratie. We zullen onze code en model vrijgeven voor verder gebruik door de gemeenschap.
English
Recent advances in large language models (LLMs) have highlighted the potential of reinforcement learning with verifiable rewards (RLVR) to enhance reasoning capabilities through extended output sequences. However, traditional RL frameworks face inefficiencies when handling ultra-long outputs due to long-tail sequence distributions and entropy collapse during training. To address these challenges, we propose an Ultra-Long Output Reinforcement Learning (UloRL) approach for advancing large language models' reasoning abilities. Specifically, we divide ultra long output decoding into short segments, enabling efficient training by mitigating delays caused by long-tail samples. Additionally, we introduce dynamic masking of well-Mastered Positive Tokens (MPTs) to prevent entropy collapse. Experimental results demonstrate the effectiveness of our approach. On the Qwen3-30B-A3B model, RL with segment rollout achieved 2.06x increase in training speed, while RL training with 128k-token outputs improves the model's performance on AIME2025 from 70.9\% to 85.1\% and on BeyondAIME from 50.7\% to 61.9\%, even surpassing Qwen3-235B-A22B with remarkable gains. These findings underscore the potential of our methods to advance the reasoning capabilities of LLMs with ultra-long sequence generation. We will release our code and model for further use by the community.
PDF142July 29, 2025