ChatPaper.aiChatPaper

UloRL: Un Approccio di Apprendimento per Rinforzo con Output Ultra-Lungo per Potenziare le Capacità di Ragionamento dei Modelli Linguistici di Grandi Dimensioni

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities

July 26, 2025
Autori: Dong Du, Shulin Liu, Tao Yang, Shaohua Chen, Yang Li
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno evidenziato il potenziale del reinforcement learning con ricompense verificabili (RLVR) per migliorare le capacità di ragionamento attraverso sequenze di output estese. Tuttavia, i tradizionali framework di RL incontrano inefficienze nella gestione di output ultra-lunghi a causa delle distribuzioni a coda lunga delle sequenze e del collasso dell'entropia durante l'addestramento. Per affrontare queste sfide, proponiamo un approccio di Reinforcement Learning per Output Ultra-Lunghi (UloRL) per potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni. Nello specifico, dividiamo la decodifica di output ultra-lunghi in segmenti brevi, consentendo un addestramento efficiente mitigando i ritardi causati da campioni a coda lunga. Inoltre, introduciamo il mascheramento dinamico dei Token Positivi Ben Padroneggiati (MPTs) per prevenire il collasso dell'entropia. I risultati sperimentali dimostrano l'efficacia del nostro approccio. Sul modello Qwen3-30B-A3B, il RL con segment rollout ha ottenuto un aumento di 2,06x nella velocità di addestramento, mentre l'addestramento RL con output di 128k token migliora le prestazioni del modello su AIME2025 dal 70,9% all'85,1% e su BeyondAIME dal 50,7% al 61,9%, superando persino Qwen3-235B-A22B con guadagni significativi. Questi risultati sottolineano il potenziale dei nostri metodi per avanzare le capacità di ragionamento degli LLM con la generazione di sequenze ultra-lunghe. Rilasceremo il nostro codice e modello per ulteriori utilizzi da parte della comunità.
English
Recent advances in large language models (LLMs) have highlighted the potential of reinforcement learning with verifiable rewards (RLVR) to enhance reasoning capabilities through extended output sequences. However, traditional RL frameworks face inefficiencies when handling ultra-long outputs due to long-tail sequence distributions and entropy collapse during training. To address these challenges, we propose an Ultra-Long Output Reinforcement Learning (UloRL) approach for advancing large language models' reasoning abilities. Specifically, we divide ultra long output decoding into short segments, enabling efficient training by mitigating delays caused by long-tail samples. Additionally, we introduce dynamic masking of well-Mastered Positive Tokens (MPTs) to prevent entropy collapse. Experimental results demonstrate the effectiveness of our approach. On the Qwen3-30B-A3B model, RL with segment rollout achieved 2.06x increase in training speed, while RL training with 128k-token outputs improves the model's performance on AIME2025 from 70.9\% to 85.1\% and on BeyondAIME from 50.7\% to 61.9\%, even surpassing Qwen3-235B-A22B with remarkable gains. These findings underscore the potential of our methods to advance the reasoning capabilities of LLMs with ultra-long sequence generation. We will release our code and model for further use by the community.
PDF132July 29, 2025