ChatPaper.aiChatPaper

BroRL: Escalando el Aprendizaje por Refuerzo mediante una Exploración Ampliada

BroRL: Scaling Reinforcement Learning via Broadened Exploration

October 1, 2025
Autores: Jian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaid Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, Jun Yang, Jan Kautz, Yi Dong
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un componente clave para desbloquear capacidades de razonamiento complejo en modelos de lenguaje de gran escala. Trabajos recientes, como ProRL, han mostrado avances prometedores al escalar el aprendizaje por refuerzo mediante el aumento del número de pasos de entrenamiento. Sin embargo, el rendimiento se estanca después de miles de pasos, con rendimientos claramente decrecientes al asignar más recursos computacionales a un entrenamiento adicional. En este trabajo, investigamos un paradigma complementario para escalar el aprendizaje por refuerzo, BroRL, que consiste en aumentar el número de rollouts por ejemplo a cientos para ampliar exhaustivamente la exploración, lo que produce mejoras continuas en el rendimiento más allá del punto de saturación observado en ProRL al escalar el número de pasos de entrenamiento. Nuestro enfoque está motivado por un análisis de la ecuación de balance de masas, que nos permite caracterizar la tasa de cambio en la masa de probabilidad de los tokens correctos e incorrectos durante el proceso de refuerzo. Demostramos que, bajo una suposición de aprendizaje por refuerzo de un solo paso, los tokens muestreados en los rollouts siempre contribuyen a la expansión de la masa correcta, mientras que los tokens no muestreados fuera de los rollouts pueden generar ganancias o pérdidas dependiendo de su distribución y del balance neto de recompensas. Es importante destacar que, a medida que aumenta el número de rollouts por ejemplo \(N\), el efecto de los términos no muestreados disminuye, asegurando una expansión general de la masa correcta. Para validar nuestro análisis teórico, realizamos simulaciones bajo condiciones más relajadas y encontramos que un tamaño de rollout suficientemente grande \(N\)—correspondiente a una exploración amplia—garantiza un aumento en la masa de probabilidad de todos los tokens correctos. Empíricamente, BroRL revitaliza modelos saturados después de 3,000 pasos de entrenamiento con ProRL y demuestra mejoras robustas y continuas, logrando resultados de vanguardia para el modelo de 1.5B en diversos benchmarks.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key ingredient for unlocking complex reasoning capabilities in large language models. Recent work ProRL has shown promise in scaling RL by increasing the number of training steps. However, performance plateaus after thousands of steps, with clear diminishing returns from allocating more computation to additional training. In this work, we investigate a complementary paradigm for scaling RL, BroR-Lincreasing the number of rollouts per example to hundreds to exhaustively Broaden exploration, which yields continuous performance gains beyond the saturation point observed in ProRL when scaling the number of training steps. Our approach is motivated by a mass balance equation analysis allowing us to characterize the rate of change in probability mass for correct and incorrect tokens during the reinforcement process. We show that under a one-step RL assumption, sampled rollout tokens always contribute to correct-mass expansion, while unsampled tokens outside rollouts may lead to gains or losses depending on their distribution and the net reward balance. Importantly, as the number of rollouts per example N increases, the effect of unsampled terms diminishes, ensuring overall correct-mass expansion. To validate our theoretical analysis, we conduct simulations under more relaxed conditions and find that a sufficiently large rollout size N-corresponding to ample exploration-guarantees an increase in the probability mass of all correct tokens. Empirically, BroRL revives models saturated after 3K ProRL training steps and demonstrates robust, continuous improvement, achieving state-of-the-art results for the 1.5B model across diverse benchmarks.
PDF162October 2, 2025