VAPO: Aprendizaje por Refuerzo Eficiente y Confiable para Tareas de Razonamiento Avanzado
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
April 7, 2025
Autores: YuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
cs.AI
Resumen
Presentamos VAPO, un marco de Optimización de Políticas Proximales Aumentadas basado en valores, diseñado específicamente para modelos de razonamiento dentro del paradigma basado en valores. Evaluado en el conjunto de datos AIME 2024, VAPO, construido sobre el modelo preentrenado Qwen 32B, alcanza una puntuación de vanguardia de 60.4. En comparación directa bajo configuraciones experimentales idénticas, VAPO supera los resultados previamente reportados de DeepSeek-R1-Zero-Qwen-32B y DAPO por más de 10 puntos. El proceso de entrenamiento de VAPO destaca por su estabilidad y eficiencia, alcanzando un rendimiento de vanguardia en apenas 5,000 pasos. Además, en múltiples ejecuciones independientes, no se producen fallos en el entrenamiento, lo que subraya su fiabilidad. Esta investigación profundiza en el razonamiento de cadena de pensamiento larga (long-CoT) utilizando un marco de aprendizaje por refuerzo basado en valores. Identificamos tres desafíos clave que afectan a los métodos basados en valores: el sesgo del modelo de valor, la presencia de longitudes de secuencia heterogéneas y la escasez de señales de recompensa. A través de un diseño sistemático, VAPO ofrece una solución integrada que mitiga eficazmente estos desafíos, permitiendo un mejor desempeño en tareas de razonamiento long-CoT.
English
We present VAPO, Value-based Augmented Proximal Policy Optimization framework
for reasoning models., a novel framework tailored for reasoning models within
the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the
Qwen 32B pre-trained model, attains a state-of-the-art score of
60.4. In direct comparison under identical experimental settings,
VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B
and DAPO by more than 10 points. The training process of VAPO stands out for
its stability and efficiency. It reaches state-of-the-art performance within a
mere 5,000 steps. Moreover, across multiple independent runs, no training
crashes occur, underscoring its reliability. This research delves into long
chain-of-thought (long-CoT) reasoning using a value-based reinforcement
learning framework. We pinpoint three key challenges that plague value-based
methods: value model bias, the presence of heterogeneous sequence lengths, and
the sparsity of reward signals. Through systematic design, VAPO offers an
integrated solution that effectively alleviates these challenges, enabling
enhanced performance in long-CoT reasoning tasks.Summary
AI-Generated Summary