ChatPaper.aiChatPaper

BroRL : Mise à l'échelle de l'apprentissage par renforcement via une exploration élargie

BroRL: Scaling Reinforcement Learning via Broadened Exploration

October 1, 2025
papers.authors: Jian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaid Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, Jun Yang, Jan Kautz, Yi Dong
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme un élément clé pour débloquer des capacités de raisonnement complexe dans les grands modèles de langage. Les travaux récents sur ProRL ont montré des résultats prometteurs en augmentant le nombre d'étapes d'entraînement pour intensifier l'apprentissage par renforcement. Cependant, les performances plafonnent après des milliers d'étapes, avec des rendements décroissants évidents lorsqu'on alloue davantage de calculs à l'entraînement supplémentaire. Dans ce travail, nous explorons un paradigme complémentaire pour intensifier l'apprentissage par renforcement, BroRL, qui consiste à augmenter le nombre de déploiements par exemple à des centaines pour élargir exhaustivement l'exploration, ce qui permet d'obtenir des gains de performance continus au-delà du point de saturation observé dans ProRL lors de l'augmentation du nombre d'étapes d'entraînement. Notre approche est motivée par une analyse basée sur une équation de bilan de masse, nous permettant de caractériser le taux de changement de la masse de probabilité pour les tokens corrects et incorrects pendant le processus de renforcement. Nous montrons que, sous l'hypothèse d'un apprentissage par renforcement en une étape, les tokens échantillonnés lors des déploiements contribuent toujours à l'expansion de la masse correcte, tandis que les tokens non échantillonnés en dehors des déploiements peuvent entraîner des gains ou des pertes selon leur distribution et le bilan net des récompenses. De manière cruciale, à mesure que le nombre de déploiements par exemple \( N \) augmente, l'effet des termes non échantillonnés diminue, assurant une expansion globale de la masse correcte. Pour valider notre analyse théorique, nous menons des simulations dans des conditions plus souples et constatons qu'une taille de déploiement \( N \) suffisamment grande—correspondant à une exploration ample—garantit une augmentation de la masse de probabilité de tous les tokens corrects. Empiriquement, BroRL relance des modèles saturés après 3 000 étapes d'entraînement ProRL et démontre une amélioration continue et robuste, atteignant des résultats de pointe pour le modèle de 1,5 milliard de paramètres sur divers benchmarks.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key ingredient for unlocking complex reasoning capabilities in large language models. Recent work ProRL has shown promise in scaling RL by increasing the number of training steps. However, performance plateaus after thousands of steps, with clear diminishing returns from allocating more computation to additional training. In this work, we investigate a complementary paradigm for scaling RL, BroR-Lincreasing the number of rollouts per example to hundreds to exhaustively Broaden exploration, which yields continuous performance gains beyond the saturation point observed in ProRL when scaling the number of training steps. Our approach is motivated by a mass balance equation analysis allowing us to characterize the rate of change in probability mass for correct and incorrect tokens during the reinforcement process. We show that under a one-step RL assumption, sampled rollout tokens always contribute to correct-mass expansion, while unsampled tokens outside rollouts may lead to gains or losses depending on their distribution and the net reward balance. Importantly, as the number of rollouts per example N increases, the effect of unsampled terms diminishes, ensuring overall correct-mass expansion. To validate our theoretical analysis, we conduct simulations under more relaxed conditions and find that a sufficiently large rollout size N-corresponding to ample exploration-guarantees an increase in the probability mass of all correct tokens. Empirically, BroRL revives models saturated after 3K ProRL training steps and demonstrates robust, continuous improvement, achieving state-of-the-art results for the 1.5B model across diverse benchmarks.
PDF162October 2, 2025