V_{0.5}: Generalistisches Wertmodell als Prior für spärliche RL-Rollouts

Zusammenfassung

Bei Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist die Konstruktion einer robusten Advantage-Baseline entscheidend für Policy-Gradienten, da sie das Policy-Modell effektiv dabei anleitet, gewünschte Verhaltensweisen zu verstärken. Jüngste Forschung hat Generalist Value Models (wie z.B. V₀) eingeführt, die eine vortrainierte Wertschätzung erreichen, indem sie Modellfähigkeiten explizit im Kontext kodieren und so die synchrone Aktualisierung des Wertmodells zusammen mit dem Policy-Modell überflüssig machen. In diesem Beitrag schlagen wir V₀.₅ vor, das die Baseline, die von einem solchen Wertmodell (als Prior fungierend) vorhergesagt wird, adaptiv mit dem empirischen Mittelwert aus spärlichen Rollouts fusioniert. Dies konstruiert eine robuste Baseline, die Recheneffizienz mit extrem geringer Varianz in Einklang bringt. Konkret führen wir einen statistischen Echtzeittest und eine dynamische Budgetzuweisung ein. Dies balanciert die hohe Varianz, die durch spärliche Stichprobenentnahme verursacht wird, mit der systematischen Verzerrung (oder Halluzinationen), die dem Prior des Wertmodells inhärent ist, aus. Durch die Konstruktion eines Hypothesentests, der die Zuverlässigkeit des Priors in Echtzeit bewertet, weist das System bei Bedarf dynamisch zusätzliches Rollout-Budget zu. Dieser Mechanismus minimiert den mittleren quadratischen Fehler (MSE) des Baseline-Schätzers und gewährleistet stabile Policy-Gradienten, selbst bei extremer Sparsity mit einer Gruppengröße von 4. Umfangreiche Auswertungen über sechs mathematische Reasoning-Benchmarks zeigen, dass V₀.₅ GRPO und DAPO signifikant übertrifft, schnellere Konvergenz erreicht und eine Leistungssteigerung von über 10 % erzielt.

English

In Reinforcement Learning with Verifiable Rewards (RLVR), constructing a robust advantage baseline is critical for policy gradients, effectively guiding the policy model to reinforce desired behaviors. Recent research has introduced Generalist Value Models (such as V_0), which achieve pre-trained value estimation by explicitly encoding model capabilities in-context, eliminating the need to synchronously update the value model alongside the policy model. In this paper, we propose V_{0.5}, which adaptively fuses the baseline predicted by such value model (acting as a prior) with the empirical mean derived from sparse rollouts. This constructs a robust baseline that balances computational efficiency with extremely low variance. Specifically, we introduce a real-time statistical testing and dynamic budget allocation. This balances the high variance caused by sparse sampling against the systematic bias (or hallucinations) inherent in the value model's prior. By constructing a hypothesis test to evaluate the prior's reliability in real-time, the system dynamically allocates additional rollout budget on demand. This mechanism minimizes the baseline estimator's Mean Squared Error (MSE), guaranteeing stable policy gradients, even under extreme sparsity with a group size of 4. Extensive evaluations across six mathematical reasoning benchmarks demonstrate that V_{0.5} significantly outperforms GRPO and DAPO, achieving faster convergence and over some 10% performance improvement.

V_{0.5}: Generalistisches Wertmodell als Prior für spärliche RL-Rollouts

V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Zusammenfassung

Support