VAPO: Efficiënt en betrouwbaar reinforcement learning voor geavanceerde redeneertaken
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
April 7, 2025
Auteurs: YuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
cs.AI
Samenvatting
We presenteren VAPO, het Value-based Augmented Proximal Policy Optimization-framework voor redeneermodellen, een nieuw raamwerk dat is afgestemd op redeneermodellen binnen het value-based paradigma. Gebenchmarkt op de AIME 2024-dataset, bereikt VAPO, gebouwd op het Qwen 32B vooraf getrainde model, een state-of-the-art score van 60,4. In een directe vergelijking onder identieke experimentele omstandigheden presteert VAPO meer dan 10 punten beter dan de eerder gerapporteerde resultaten van DeepSeek-R1-Zero-Qwen-32B en DAPO. Het trainingsproces van VAPO springt in het oog door zijn stabiliteit en efficiëntie. Het bereikt state-of-the-art prestaties binnen slechts 5.000 stappen. Bovendien treden er bij meerdere onafhankelijke runs geen trainingscrashes op, wat de betrouwbaarheid ervan onderstreept. Dit onderzoek verdiept zich in lange ketens van redenering (long chain-of-thought, long-CoT) met behulp van een value-based reinforcement learning-raamwerk. We identificeren drie belangrijke uitdagingen die value-based methoden teisteren: bias in het waardemodel, de aanwezigheid van heterogene sequentielengtes en de schaarste van beloningssignalen. Door systematisch ontwerp biedt VAPO een geïntegreerde oplossing die deze uitdagingen effectief verlicht, waardoor de prestaties in long-CoT-redeneertaken worden verbeterd.
English
We present VAPO, Value-based Augmented Proximal Policy Optimization framework
for reasoning models., a novel framework tailored for reasoning models within
the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the
Qwen 32B pre-trained model, attains a state-of-the-art score of
60.4. In direct comparison under identical experimental settings,
VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B
and DAPO by more than 10 points. The training process of VAPO stands out for
its stability and efficiency. It reaches state-of-the-art performance within a
mere 5,000 steps. Moreover, across multiple independent runs, no training
crashes occur, underscoring its reliability. This research delves into long
chain-of-thought (long-CoT) reasoning using a value-based reinforcement
learning framework. We pinpoint three key challenges that plague value-based
methods: value model bias, the presence of heterogeneous sequence lengths, and
the sparsity of reward signals. Through systematic design, VAPO offers an
integrated solution that effectively alleviates these challenges, enabling
enhanced performance in long-CoT reasoning tasks.Summary
AI-Generated Summary