ChatPaper.aiChatPaper

Open-Reasoner-Zero: Een Open-Source Benadering voor het Opschalen van Reinforcement Learning op het Basismodel

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

March 31, 2025
Auteurs: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI

Samenvatting

We introduceren Open-Reasoner-Zero, de eerste open-source implementatie van grootschalige, op redenering gerichte RL-training die zich richt op schaalbaarheid, eenvoud en toegankelijkheid. Door middel van uitgebreide experimenten tonen we aan dat een minimalistische aanpak, bestaande uit vanilla PPO met GAE (lambda=1, gamma=1) en eenvoudige regelgebaseerde beloningen, zonder enige KL-regularisatie, voldoende is om zowel de responslengte als de benchmarkprestaties op te schalen, vergelijkbaar met het fenomeen dat werd waargenomen in DeepSeek-R1-Zero. Met hetzelfde basismodel als DeepSeek-R1-Zero-Qwen-32B behaalt onze implementatie superieure prestaties op AIME2024, MATH500 en de GPQA Diamond-benchmark, terwijl het opmerkelijke efficiëntie demonstreert — slechts een tiende van het aantal trainingsstappen vereist in vergelijking met de DeepSeek-R1-Zero-pipeline. In de geest van open source maken we onze broncode, parameterinstellingen, trainingsdata en modelgewichten in verschillende formaten openbaar.
English
We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE (lambda=1, gamma=1) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency -- requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.

Summary

AI-Generated Summary

PDF633April 1, 2025