ChatPaper.aiChatPaper

DAPO: Un Sistema Open-Source di Apprendimento per Rinforzo su LLM su Larga Scala

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

March 18, 2025
Autori: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
cs.AI

Abstract

Lo scaling dell'inferenza conferisce ai LLM capacità di ragionamento senza precedenti, con l'apprendimento per rinforzo come tecnica centrale per elicitare ragionamenti complessi. Tuttavia, i dettagli tecnici chiave dei LLM all'avanguardia per il ragionamento rimangono nascosti (come nel blog OpenAI o1 e nel rapporto tecnico DeepSeek R1), lasciando la comunità ancora in difficoltà nel riprodurre i loro risultati di addestramento RL. Proponiamo l'algoritmo Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) e rendiamo completamente open-source un sistema RL su larga scala all'avanguardia che raggiunge 50 punti su AIME 2024 utilizzando il modello base Qwen2.5-32B. A differenza dei lavori precedenti che omettono i dettagli di addestramento, introduciamo quattro tecniche chiave del nostro algoritmo che rendono possibile il RL su larga scala per i LLM. Inoltre, rendiamo open-source il nostro codice di addestramento, basato sul framework verl, insieme a un dataset accuratamente curato e processato. Questi componenti del nostro sistema open-source migliorano la riproducibilità e supportano la ricerca futura nel campo del RL su larga scala per i LLM.
English
Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.
PDF1285March 19, 2025