ChatPaper.aiChatPaper

DAPO : Un système open-source de renforcement d'apprentissage pour grands modèles de langage à grande échelle

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

March 18, 2025
Auteurs: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
cs.AI

Résumé

Le passage à l'échelle de l'inférence confère aux LLM une capacité de raisonnement sans précédent, avec l'apprentissage par renforcement comme technique centrale pour susciter un raisonnement complexe. Cependant, les détails techniques clés des LLM de pointe en matière de raisonnement restent dissimulés (comme dans le blog OpenAI o1 et le rapport technique DeepSeek R1), ce qui empêche la communauté de reproduire leurs résultats d'entraînement par RL. Nous proposons l'algorithme Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) et mettons entièrement en open source un système RL à grande échelle de pointe qui atteint 50 points sur AIME 2024 en utilisant le modèle de base Qwen2.5-32B. Contrairement aux travaux précédents qui occultent les détails de l'entraînement, nous présentons quatre techniques clés de notre algorithme qui permettent de réussir l'apprentissage par renforcement à grande échelle pour les LLM. De plus, nous ouvrons notre code d'entraînement, basé sur le framework verl, ainsi qu'un ensemble de données soigneusement sélectionné et traité. Ces composants de notre système open source améliorent la reproductibilité et soutiennent les recherches futures sur l'apprentissage par renforcement à grande échelle pour les LLM.
English
Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.

Summary

AI-Generated Summary

PDF1225March 19, 2025