ChatPaper.aiChatPaper

DAPO: Un sistema de aprendizaje por refuerzo para modelos de lenguaje a gran escala de código abierto

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

March 18, 2025
Autores: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
cs.AI

Resumen

El escalado de inferencia dota a los LLM de una capacidad de razonamiento sin precedentes, utilizando el aprendizaje por refuerzo como técnica central para elicitar razonamientos complejos. Sin embargo, los detalles técnicos clave de los LLM de razonamiento de última generación permanecen ocultos (como en el blog o1 de OpenAI y el informe técnico R1 de DeepSeek), por lo que la comunidad aún enfrenta dificultades para reproducir sus resultados de entrenamiento con RL. Proponemos el algoritmo Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) y liberamos completamente un sistema de RL a gran escala de última generación que alcanza 50 puntos en AIME 2024 utilizando el modelo base Qwen2.5-32B. A diferencia de trabajos previos que retienen detalles del entrenamiento, presentamos cuatro técnicas clave de nuestro algoritmo que hacen posible el RL a gran escala en LLM. Además, liberamos nuestro código de entrenamiento, construido sobre el framework verl, junto con un conjunto de datos cuidadosamente seleccionado y procesado. Estos componentes de nuestro sistema de código abierto mejoran la reproducibilidad y apoyan futuras investigaciones en RL a gran escala para LLM.
English
Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.

Summary

AI-Generated Summary

PDF1225March 19, 2025