DAPO: Um Sistema de Aprendizado por Reforço para LLMs de Código Aberto em Escala
DAPO: An Open-Source LLM Reinforcement Learning System at Scale
March 18, 2025
Autores: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
cs.AI
Resumo
A escalabilidade de inferência capacita os LLMs com habilidades de raciocínio sem precedentes, tendo o aprendizado por reforço como técnica central para eliciar raciocínios complexos. No entanto, detalhes técnicos cruciais dos LLMs de última geração para raciocínio são ocultados (como no blog OpenAI o1 e no relatório técnico DeepSeek R1), fazendo com que a comunidade ainda enfrente dificuldades para reproduzir seus resultados de treinamento com RL. Propomos o algoritmo Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) e disponibilizamos em código aberto um sistema de RL em larga escala de última geração que alcança 50 pontos no AIME 2024 utilizando o modelo base Qwen2.5-32B. Diferente de trabalhos anteriores que retêm detalhes de treinamento, introduzimos quatro técnicas-chave do nosso algoritmo que tornam o RL em LLMs em larga escala um sucesso. Além disso, disponibilizamos nosso código de treinamento, construído sobre o framework verl, juntamente com um conjunto de dados cuidadosamente curado e processado. Esses componentes do nosso sistema de código aberto aumentam a reprodutibilidade e apoiam pesquisas futuras em RL para LLMs em larga escala.
English
Inference scaling empowers LLMs with unprecedented reasoning ability, with
reinforcement learning as the core technique to elicit complex reasoning.
However, key technical details of state-of-the-art reasoning LLMs are concealed
(such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the
community still struggles to reproduce their RL training results. We propose
the Decoupled Clip and Dynamic sAmpling
Policy Optimization (DAPO) algorithm, and
fully open-source a state-of-the-art large-scale RL system that achieves 50
points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that
withhold training details, we introduce four key techniques of our algorithm
that make large-scale LLM RL a success. In addition, we open-source our
training code, which is built on the verl framework, along with a carefully
curated and processed dataset. These components of our open-source system
enhance reproducibility and support future research in large-scale LLM RL.Summary
AI-Generated Summary