VAPO: Effizientes und zuverlässiges Reinforcement Learning für anspruchsvolle Denkaufgaben

papers.abstract

Wir präsentieren VAPO, ein Value-based Augmented Proximal Policy Optimization Framework für Reasoning-Modelle, ein neuartiges Framework, das speziell für Reasoning-Modelle im wertbasierten Paradigma entwickelt wurde. Auf dem AIME 2024-Datensatz getestet, erreicht VAPO, basierend auf dem vortrainierten Qwen 32B-Modell, einen state-of-the-art-Score von 60,4. Im direkten Vergleich unter identischen experimentellen Bedingungen übertrifft VAPO die bisher berichteten Ergebnisse von DeepSeek-R1-Zero-Qwen-32B und DAPO um mehr als 10 Punkte. Der Trainingsprozess von VAPO zeichnet sich durch seine Stabilität und Effizienz aus. Es erreicht state-of-the-art-Leistung in nur 5.000 Schritten. Darüber hinaus treten über mehrere unabhängige Durchläufe hinweg keine Trainingsabstürze auf, was seine Zuverlässigkeit unterstreicht. Diese Forschung befasst sich mit langen Chain-of-Thought (long-CoT)-Reasoning-Prozessen unter Verwendung eines wertbasierten Reinforcement-Learning-Frameworks. Wir identifizieren drei zentrale Herausforderungen, die wertbasierte Methoden beeinträchtigen: Bias des Wertmodells, das Vorhandensein heterogener Sequenzlängen und die Sparsity von Belohnungssignalen. Durch systematisches Design bietet VAPO eine integrierte Lösung, die diese Herausforderungen effektiv mildert und so eine verbesserte Leistung bei langen CoT-Reasoning-Aufgaben ermöglicht.

English

We present VAPO, Value-based Augmented Proximal Policy Optimization framework for reasoning models., a novel framework tailored for reasoning models within the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the Qwen 32B pre-trained model, attains a state-of-the-art score of 60.4. In direct comparison under identical experimental settings, VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B and DAPO by more than 10 points. The training process of VAPO stands out for its stability and efficiency. It reaches state-of-the-art performance within a mere 5,000 steps. Moreover, across multiple independent runs, no training crashes occur, underscoring its reliability. This research delves into long chain-of-thought (long-CoT) reasoning using a value-based reinforcement learning framework. We pinpoint three key challenges that plague value-based methods: value model bias, the presence of heterogeneous sequence lengths, and the sparsity of reward signals. Through systematic design, VAPO offers an integrated solution that effectively alleviates these challenges, enabling enhanced performance in long-CoT reasoning tasks.

VAPO: Effizientes und zuverlässiges Reinforcement Learning für anspruchsvolle Denkaufgaben

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

papers.abstract

Support