ChatPaper.aiChatPaper

DAPO: Um Sistema de Aprendizado por Reforço para LLMs de Código Aberto em Escala

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

March 18, 2025
Autores: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
cs.AI

Resumo

A escalabilidade de inferência capacita os LLMs com habilidades de raciocínio sem precedentes, tendo o aprendizado por reforço como técnica central para eliciar raciocínios complexos. No entanto, detalhes técnicos cruciais dos LLMs de última geração para raciocínio são ocultados (como no blog OpenAI o1 e no relatório técnico DeepSeek R1), fazendo com que a comunidade ainda enfrente dificuldades para reproduzir seus resultados de treinamento com RL. Propomos o algoritmo Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) e disponibilizamos em código aberto um sistema de RL em larga escala de última geração que alcança 50 pontos no AIME 2024 utilizando o modelo base Qwen2.5-32B. Diferente de trabalhos anteriores que retêm detalhes de treinamento, introduzimos quatro técnicas-chave do nosso algoritmo que tornam o RL em LLMs em larga escala um sucesso. Além disso, disponibilizamos nosso código de treinamento, construído sobre o framework verl, juntamente com um conjunto de dados cuidadosamente curado e processado. Esses componentes do nosso sistema de código aberto aumentam a reprodutibilidade e apoiam pesquisas futuras em RL para LLMs em larga escala.
English
Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.

Summary

AI-Generated Summary

PDF1225March 19, 2025