ChatPaper.aiChatPaper

UloRL: Un Enfoque de Aprendizaje por Refuerzo de Salida Ultra-Larga para Avanzar en las Habilidades de Razonamiento de los Modelos de Lenguaje a Gran Escala

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities

July 26, 2025
Autores: Dong Du, Shulin Liu, Tao Yang, Shaohua Chen, Yang Li
cs.AI

Resumen

Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han destacado el potencial del aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) para mejorar las capacidades de razonamiento a través de secuencias de salida extendidas. Sin embargo, los marcos tradicionales de RL enfrentan ineficiencias al manejar salidas ultra largas debido a distribuciones de secuencias de cola larga y al colapso de la entropía durante el entrenamiento. Para abordar estos desafíos, proponemos un enfoque de Aprendizaje por Refuerzo con Salida Ultra Larga (UloRL, por sus siglas en inglés) para avanzar en las capacidades de razonamiento de los modelos de lenguaje de gran escala. Específicamente, dividimos la decodificación de salidas ultra largas en segmentos cortos, permitiendo un entrenamiento eficiente al mitigar los retrasos causados por muestras de cola larga. Además, introducimos el enmascaramiento dinámico de Tokens Positivos Dominados (MPTs, por sus siglas en inglés) para prevenir el colapso de la entropía. Los resultados experimentales demuestran la efectividad de nuestro enfoque. En el modelo Qwen3-30B-A3B, el RL con despliegue de segmentos logró un aumento de 2.06x en la velocidad de entrenamiento, mientras que el entrenamiento de RL con salidas de 128k tokens mejora el rendimiento del modelo en AIME2025 del 70.9% al 85.1% y en BeyondAIME del 50.7% al 61.9%, superando incluso a Qwen3-235B-A22B con ganancias notables. Estos hallazgos subrayan el potencial de nuestros métodos para avanzar en las capacidades de razonamiento de los LLMs con la generación de secuencias ultra largas. Liberaremos nuestro código y modelo para su uso adicional por parte de la comunidad.
English
Recent advances in large language models (LLMs) have highlighted the potential of reinforcement learning with verifiable rewards (RLVR) to enhance reasoning capabilities through extended output sequences. However, traditional RL frameworks face inefficiencies when handling ultra-long outputs due to long-tail sequence distributions and entropy collapse during training. To address these challenges, we propose an Ultra-Long Output Reinforcement Learning (UloRL) approach for advancing large language models' reasoning abilities. Specifically, we divide ultra long output decoding into short segments, enabling efficient training by mitigating delays caused by long-tail samples. Additionally, we introduce dynamic masking of well-Mastered Positive Tokens (MPTs) to prevent entropy collapse. Experimental results demonstrate the effectiveness of our approach. On the Qwen3-30B-A3B model, RL with segment rollout achieved 2.06x increase in training speed, while RL training with 128k-token outputs improves the model's performance on AIME2025 from 70.9\% to 85.1\% and on BeyondAIME from 50.7\% to 61.9\%, even surpassing Qwen3-235B-A22B with remarkable gains. These findings underscore the potential of our methods to advance the reasoning capabilities of LLMs with ultra-long sequence generation. We will release our code and model for further use by the community.
PDF102July 29, 2025