ChatPaper.aiChatPaper

UloRL: Uma Abordagem de Aprendizado por Reforço de Saída Ultra-Longa para Avançar as Habilidades de Raciocínio de Modelos de Linguagem de Grande Escala

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities

July 26, 2025
Autores: Dong Du, Shulin Liu, Tao Yang, Shaohua Chen, Yang Li
cs.AI

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) destacaram o potencial do aprendizado por reforço com recompensas verificáveis (RLVR) para aprimorar as capacidades de raciocínio por meio de sequências de saída estendidas. No entanto, os frameworks tradicionais de RL enfrentam ineficiências ao lidar com saídas ultra-longas devido a distribuições de sequência de cauda longa e ao colapso de entropia durante o treinamento. Para abordar esses desafios, propomos uma abordagem de Aprendizado por Reforço de Saída Ultra-Longa (UloRL) para avançar as habilidades de raciocínio de modelos de linguagem de grande escala. Especificamente, dividimos a decodificação de saída ultra-longa em segmentos curtos, permitindo um treinamento eficiente ao mitigar os atrasos causados por amostras de cauda longa. Além disso, introduzimos o mascaramento dinâmico de Tokens Positivos Bem Dominados (MPTs) para evitar o colapso de entropia. Os resultados experimentais demonstram a eficácia de nossa abordagem. No modelo Qwen3-30B-A3B, o RL com segmentação de rollout alcançou um aumento de 2,06x na velocidade de treinamento, enquanto o treinamento de RL com saídas de 128k tokens melhorou o desempenho do modelo no AIME2025 de 70,9% para 85,1% e no BeyondAIME de 50,7% para 61,9%, superando até mesmo o Qwen3-235B-A22B com ganhos notáveis. Esses achados destacam o potencial de nossos métodos para avançar as capacidades de raciocínio de LLMs com geração de sequências ultra-longas. Disponibilizaremos nosso código e modelo para uso adicional pela comunidade.
English
Recent advances in large language models (LLMs) have highlighted the potential of reinforcement learning with verifiable rewards (RLVR) to enhance reasoning capabilities through extended output sequences. However, traditional RL frameworks face inefficiencies when handling ultra-long outputs due to long-tail sequence distributions and entropy collapse during training. To address these challenges, we propose an Ultra-Long Output Reinforcement Learning (UloRL) approach for advancing large language models' reasoning abilities. Specifically, we divide ultra long output decoding into short segments, enabling efficient training by mitigating delays caused by long-tail samples. Additionally, we introduce dynamic masking of well-Mastered Positive Tokens (MPTs) to prevent entropy collapse. Experimental results demonstrate the effectiveness of our approach. On the Qwen3-30B-A3B model, RL with segment rollout achieved 2.06x increase in training speed, while RL training with 128k-token outputs improves the model's performance on AIME2025 from 70.9\% to 85.1\% and on BeyondAIME from 50.7\% to 61.9\%, even surpassing Qwen3-235B-A22B with remarkable gains. These findings underscore the potential of our methods to advance the reasoning capabilities of LLMs with ultra-long sequence generation. We will release our code and model for further use by the community.
PDF92July 29, 2025