VAPO: Эффективное и надежное обучение с подкреплением для сложных задач логического рассуждения
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
April 7, 2025
Авторы: YuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan
cs.AI
Аннотация
Мы представляем VAPO (Value-based Augmented Proximal Policy Optimization) — новый фреймворк, разработанный для моделей рассуждений в рамках ценностно-ориентированной парадигмы. Протестированный на наборе данных AIME 2024, VAPO, основанный на предобученной модели Qwen 32B, достигает рекордного показателя в 60.4 балла. При прямом сравнении в идентичных экспериментальных условиях VAPO превосходит ранее заявленные результаты моделей DeepSeek-R1-Zero-Qwen-32B и DAPO более чем на 10 баллов. Процесс обучения VAPO выделяется своей стабильностью и эффективностью: он достигает передовых показателей всего за 5 000 шагов. Более того, в ходе множества независимых запусков не было зафиксировано сбоев в обучении, что подчеркивает его надежность. Данное исследование углубляется в задачи длинных цепочек рассуждений (long-CoT) с использованием ценностно-ориентированного подхода в обучении с подкреплением. Мы выделяем три ключевые проблемы, характерные для ценностно-ориентированных методов: смещение ценностной модели, наличие последовательностей разной длины и разреженность сигналов вознаграждения. Благодаря систематическому подходу, VAPO предлагает интегрированное решение, которое эффективно смягчает эти проблемы, обеспечивая улучшенную производительность в задачах длинных цепочек рассуждений.
English
We present VAPO, Value-based Augmented Proximal Policy Optimization framework
for reasoning models., a novel framework tailored for reasoning models within
the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the
Qwen 32B pre-trained model, attains a state-of-the-art score of
60.4. In direct comparison under identical experimental settings,
VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B
and DAPO by more than 10 points. The training process of VAPO stands out for
its stability and efficiency. It reaches state-of-the-art performance within a
mere 5,000 steps. Moreover, across multiple independent runs, no training
crashes occur, underscoring its reliability. This research delves into long
chain-of-thought (long-CoT) reasoning using a value-based reinforcement
learning framework. We pinpoint three key challenges that plague value-based
methods: value model bias, the presence of heterogeneous sequence lengths, and
the sparsity of reward signals. Through systematic design, VAPO offers an
integrated solution that effectively alleviates these challenges, enabling
enhanced performance in long-CoT reasoning tasks.Summary
AI-Generated Summary