ChatPaper.aiChatPaper

DAPO: 대규모 오픈소스 LLM 강화 학습 시스템

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

March 18, 2025
저자: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
cs.AI

초록

추론 스케일링은 LLM(Large Language Model)에 전례 없는 추론 능력을 부여하며, 복잡한 추론을 이끌어내기 위한 핵심 기술로 강화 학습(Reinforcement Learning)을 활용합니다. 그러나 최신 추론 LLM의 주요 기술적 세부 사항(예: OpenAI o1 블로그 및 DeepSeek R1 기술 보고서)은 공개되지 않아, 커뮤니티는 여전히 그들의 RL 훈련 결과를 재현하는 데 어려움을 겪고 있습니다. 우리는 **Decoupled Clip 및 Dynamic Sampling Policy Optimization (DAPO)** 알고리즘을 제안하고, Qwen2.5-32B 기본 모델을 사용하여 AIME 2024에서 50점을 달성한 최신 대규모 RL 시스템을 완전히 오픈소스로 공개합니다. 훈련 세부 사항을 공개하지 않았던 기존 연구와 달리, 우리는 대규모 LLM RL을 성공적으로 구현한 알고리즘의 네 가지 핵심 기술을 소개합니다. 또한, **verl** 프레임워크를 기반으로 구축된 훈련 코드와 신중하게 선별 및 처리된 데이터셋을 오픈소스로 공개합니다. 우리의 오픈소스 시스템은 재현성을 높이고, 대규모 LLM RL 분야의 미래 연구를 지원합니다.
English
Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.

Summary

AI-Generated Summary

PDF1225March 19, 2025