ChatPaper.aiChatPaper

Open-Reasoner-Zero : Une approche open source pour intensifier l'apprentissage par renforcement sur le modèle de base

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

March 31, 2025
Auteurs: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI

Résumé

Nous présentons Open-Reasoner-Zero, la première implémentation open source d'un entraînement RL à grande échelle axé sur le raisonnement, mettant l'accent sur l'évolutivité, la simplicité et l'accessibilité. À travers des expériences approfondies, nous démontrons qu'une approche minimaliste, utilisant PPO standard avec GAE (lambda=1, gamma=1) et des récompenses basées sur des règles simples, sans aucune régularisation KL, est suffisante pour augmenter à la fois la longueur des réponses et les performances sur les benchmarks, similairement au phénomène observé dans DeepSeek-R1-Zero. En utilisant le même modèle de base que DeepSeek-R1-Zero-Qwen-32B, notre implémentation atteint des performances supérieures sur AIME2024, MATH500 et le benchmark GPQA Diamond, tout en démontrant une efficacité remarquable — nécessitant seulement un dixième des étapes d'entraînement par rapport au pipeline DeepSeek-R1-Zero. Dans l'esprit de l'open source, nous publions notre code source, les paramètres, les données d'entraînement et les poids du modèle pour différentes tailles.
English
We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE (lambda=1, gamma=1) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency -- requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.

Summary

AI-Generated Summary

PDF633April 1, 2025