VAPO: Aprendizado por Reforço Eficiente e Confiável para Tarefas de Raciocínio Avançado
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
April 7, 2025
Autores: YuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
cs.AI
Resumo
Apresentamos o VAPO, um framework de Otimização de Políticas Proximais Aumentadas Baseadas em Valor, projetado especificamente para modelos de raciocínio dentro do paradigma baseado em valor. Avaliado no conjunto de dados AIME 2024, o VAPO, construído sobre o modelo pré-treinado Qwen 32B, alcança uma pontuação de ponta de 60,4. Em comparação direta sob configurações experimentais idênticas, o VAPO supera os resultados anteriormente reportados do DeepSeek-R1-Zero-Qwen-32B e do DAPO por mais de 10 pontos. O processo de treinamento do VAPO destaca-se por sua estabilidade e eficiência, atingindo desempenho de ponta em apenas 5.000 passos. Além disso, em múltiplas execuções independentes, nenhuma falha de treinamento ocorre, reforçando sua confiabilidade. Esta pesquisa explora o raciocínio de cadeia de pensamento longa (long-CoT) utilizando um framework de aprendizado por reforço baseado em valor. Identificamos três desafios principais que afetam métodos baseados em valor: viés do modelo de valor, a presença de comprimentos de sequência heterogêneos e a esparsidade dos sinais de recompensa. Por meio de um design sistemático, o VAPO oferece uma solução integrada que efetivamente mitiga esses desafios, permitindo um desempenho aprimorado em tarefas de raciocínio long-CoT.
English
We present VAPO, Value-based Augmented Proximal Policy Optimization framework
for reasoning models., a novel framework tailored for reasoning models within
the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the
Qwen 32B pre-trained model, attains a state-of-the-art score of
60.4. In direct comparison under identical experimental settings,
VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B
and DAPO by more than 10 points. The training process of VAPO stands out for
its stability and efficiency. It reaches state-of-the-art performance within a
mere 5,000 steps. Moreover, across multiple independent runs, no training
crashes occur, underscoring its reliability. This research delves into long
chain-of-thought (long-CoT) reasoning using a value-based reinforcement
learning framework. We pinpoint three key challenges that plague value-based
methods: value model bias, the presence of heterogeneous sequence lengths, and
the sparsity of reward signals. Through systematic design, VAPO offers an
integrated solution that effectively alleviates these challenges, enabling
enhanced performance in long-CoT reasoning tasks.Summary
AI-Generated Summary