ChatPaper.aiChatPaper

Open-Reasoner-Zero: Uma Abordagem de Código Aberto para Escalonar o Aprendizado por Reforço no Modelo Base

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

March 31, 2025
Autores: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI

Resumo

Apresentamos o Open-Reasoner-Zero, a primeira implementação de código aberto de treinamento de RL em grande escala orientado para raciocínio, com foco em escalabilidade, simplicidade e acessibilidade. Por meio de extensos experimentos, demonstramos que uma abordagem minimalista, utilizando PPO básico com GAE (lambda=1, gamma=1) e recompensas baseadas em regras diretas, sem qualquer regularização KL, é suficiente para escalar tanto o comprimento das respostas quanto o desempenho em benchmarks, semelhante ao fenômeno observado no DeepSeek-R1-Zero. Utilizando o mesmo modelo base do DeepSeek-R1-Zero-Qwen-32B, nossa implementação alcança desempenho superior nos benchmarks AIME2024, MATH500 e GPQA Diamond, ao mesmo tempo que demonstra eficiência notável -- exigindo apenas um décimo dos passos de treinamento em comparação com o pipeline do DeepSeek-R1-Zero. No espírito do código aberto, disponibilizamos nosso código-fonte, configurações de parâmetros, dados de treinamento e pesos do modelo em vários tamanhos.
English
We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE (lambda=1, gamma=1) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency -- requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.

Summary

AI-Generated Summary

PDF633April 1, 2025