VAPO:高度な推論タスクのための効率的かつ信頼性の高い強化学習
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
April 7, 2025
著者: YuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
cs.AI
要旨
我々は、価値ベースのパラダイムにおける推論モデルに特化した新しいフレームワークであるVAPO(Value-based Augmented Proximal Policy Optimization)を提案する。AIME 2024データセットでベンチマークを行った結果、Qwen 32B事前学習モデルを基に構築されたVAPOは、60.4という最先端のスコアを達成した。同一の実験設定下での直接比較において、VAPOは以前に報告されたDeepSeek-R1-Zero-Qwen-32BおよびDAPOの結果を10ポイント以上上回った。VAPOの学習プロセスは、その安定性と効率性において際立っている。わずか5,000ステップで最先端の性能に到達し、さらに複数の独立した実行においても学習クラッシュが発生しないことから、その信頼性が裏付けられている。本研究では、価値ベースの強化学習フレームワークを用いた長い連鎖思考(long-CoT)推論に焦点を当てている。我々は、価値ベースの手法を悩ませる3つの主要な課題、すなわち価値モデルのバイアス、異種シーケンス長の存在、および報酬信号の希薄性を特定した。体系的な設計を通じて、VAPOはこれらの課題を効果的に緩和する統合ソリューションを提供し、long-CoT推論タスクにおける性能向上を可能にしている。
English
We present VAPO, Value-based Augmented Proximal Policy Optimization framework
for reasoning models., a novel framework tailored for reasoning models within
the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the
Qwen 32B pre-trained model, attains a state-of-the-art score of
60.4. In direct comparison under identical experimental settings,
VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B
and DAPO by more than 10 points. The training process of VAPO stands out for
its stability and efficiency. It reaches state-of-the-art performance within a
mere 5,000 steps. Moreover, across multiple independent runs, no training
crashes occur, underscoring its reliability. This research delves into long
chain-of-thought (long-CoT) reasoning using a value-based reinforcement
learning framework. We pinpoint three key challenges that plague value-based
methods: value model bias, the presence of heterogeneous sequence lengths, and
the sparsity of reward signals. Through systematic design, VAPO offers an
integrated solution that effectively alleviates these challenges, enabling
enhanced performance in long-CoT reasoning tasks.Summary
AI-Generated Summary