ChatPaper.aiChatPaper

VAPO : Apprentissage par renforcement efficace et fiable pour des tâches de raisonnement avancé

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

April 7, 2025
Auteurs: YuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
cs.AI

Résumé

Nous présentons VAPO, un cadre d'Optimisation de Politique Proximale Augmentée basée sur la valeur, spécialement conçu pour les modèles de raisonnement dans le paradigme basé sur la valeur. Évalué sur le jeu de données AIME 2024, VAPO, construit sur le modèle pré-entraîné Qwen 32B, atteint un score de pointe de 60,4. En comparaison directe dans des conditions expérimentales identiques, VAPO surpasse les résultats précédemment rapportés de DeepSeek-R1-Zero-Qwen-32B et DAPO de plus de 10 points. Le processus d'entraînement de VAPO se distingue par sa stabilité et son efficacité. Il atteint des performances de pointe en seulement 5 000 étapes. De plus, sur plusieurs exécutions indépendantes, aucun crash d'entraînement ne se produit, soulignant sa fiabilité. Cette recherche explore le raisonnement en chaîne de pensée longue (long-CoT) en utilisant un cadre d'apprentissage par renforcement basé sur la valeur. Nous identifions trois défis majeurs qui affectent les méthodes basées sur la valeur : le biais du modèle de valeur, la présence de longueurs de séquences hétérogènes et la rareté des signaux de récompense. Grâce à une conception systématique, VAPO propose une solution intégrée qui atténue efficacement ces défis, permettant une amélioration des performances dans les tâches de raisonnement long-CoT.
English
We present VAPO, Value-based Augmented Proximal Policy Optimization framework for reasoning models., a novel framework tailored for reasoning models within the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the Qwen 32B pre-trained model, attains a state-of-the-art score of 60.4. In direct comparison under identical experimental settings, VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B and DAPO by more than 10 points. The training process of VAPO stands out for its stability and efficiency. It reaches state-of-the-art performance within a mere 5,000 steps. Moreover, across multiple independent runs, no training crashes occur, underscoring its reliability. This research delves into long chain-of-thought (long-CoT) reasoning using a value-based reinforcement learning framework. We pinpoint three key challenges that plague value-based methods: value model bias, the presence of heterogeneous sequence lengths, and the sparsity of reward signals. Through systematic design, VAPO offers an integrated solution that effectively alleviates these challenges, enabling enhanced performance in long-CoT reasoning tasks.

Summary

AI-Generated Summary

PDF252April 8, 2025