BroRL: Escalando el Aprendizaje por Refuerzo mediante una Exploración Ampliada
BroRL: Scaling Reinforcement Learning via Broadened Exploration
October 1, 2025
Autores: Jian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaid Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, Jun Yang, Jan Kautz, Yi Dong
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un componente clave para desbloquear capacidades de razonamiento complejo en modelos de lenguaje de gran escala. Trabajos recientes, como ProRL, han mostrado avances prometedores al escalar el aprendizaje por refuerzo mediante el aumento del número de pasos de entrenamiento. Sin embargo, el rendimiento se estanca después de miles de pasos, con rendimientos claramente decrecientes al asignar más recursos computacionales a un entrenamiento adicional. En este trabajo, investigamos un paradigma complementario para escalar el aprendizaje por refuerzo, BroRL, que consiste en aumentar el número de rollouts por ejemplo a cientos para ampliar exhaustivamente la exploración, lo que produce mejoras continuas en el rendimiento más allá del punto de saturación observado en ProRL al escalar el número de pasos de entrenamiento. Nuestro enfoque está motivado por un análisis de la ecuación de balance de masas, que nos permite caracterizar la tasa de cambio en la masa de probabilidad de los tokens correctos e incorrectos durante el proceso de refuerzo. Demostramos que, bajo una suposición de aprendizaje por refuerzo de un solo paso, los tokens muestreados en los rollouts siempre contribuyen a la expansión de la masa correcta, mientras que los tokens no muestreados fuera de los rollouts pueden generar ganancias o pérdidas dependiendo de su distribución y del balance neto de recompensas. Es importante destacar que, a medida que aumenta el número de rollouts por ejemplo \(N\), el efecto de los términos no muestreados disminuye, asegurando una expansión general de la masa correcta. Para validar nuestro análisis teórico, realizamos simulaciones bajo condiciones más relajadas y encontramos que un tamaño de rollout suficientemente grande \(N\)—correspondiente a una exploración amplia—garantiza un aumento en la masa de probabilidad de todos los tokens correctos. Empíricamente, BroRL revitaliza modelos saturados después de 3,000 pasos de entrenamiento con ProRL y demuestra mejoras robustas y continuas, logrando resultados de vanguardia para el modelo de 1.5B en diversos benchmarks.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key
ingredient for unlocking complex reasoning capabilities in large language
models. Recent work ProRL has shown promise in scaling RL by increasing the
number of training steps. However, performance plateaus after thousands of
steps, with clear diminishing returns from allocating more computation to
additional training. In this work, we investigate a complementary paradigm for
scaling RL, BroR-Lincreasing the number of rollouts per example to hundreds to
exhaustively Broaden exploration, which yields continuous performance gains
beyond the saturation point observed in ProRL when scaling the number of
training steps. Our approach is motivated by a mass balance equation analysis
allowing us to characterize the rate of change in probability mass for correct
and incorrect tokens during the reinforcement process. We show that under a
one-step RL assumption, sampled rollout tokens always contribute to
correct-mass expansion, while unsampled tokens outside rollouts may lead to
gains or losses depending on their distribution and the net reward balance.
Importantly, as the number of rollouts per example N increases, the effect of
unsampled terms diminishes, ensuring overall correct-mass expansion. To
validate our theoretical analysis, we conduct simulations under more relaxed
conditions and find that a sufficiently large rollout size N-corresponding to
ample exploration-guarantees an increase in the probability mass of all correct
tokens. Empirically, BroRL revives models saturated after 3K ProRL training
steps and demonstrates robust, continuous improvement, achieving
state-of-the-art results for the 1.5B model across diverse benchmarks.