V_{0.5}: Modello Valore Generalista come Prior per Rollout RL Sparsi
V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts
March 11, 2026
Autori: Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye
cs.AI
Abstract
Nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR), la costruzione di una baseline robusta per i vantaggi è fondamentale per i gradienti delle politiche, guidando efficacemente il modello di politica a rinforzare i comportamenti desiderati. Ricerche recenti hanno introdotto Modelli di Valore Generalisti (come V_0), che raggiungono una stima del valore pre-addestrata codificando esplicitamente le capacità del modello in-context, eliminando la necessità di aggiornare sincronamente il modello del valore insieme al modello della politica. In questo articolo, proponiamo V_{0.5}, che fonde in modo adattivo la baseline predetta da tale modello del valore (che funge da prior) con la media empirica derivata da rollout sparsi. Ciò costruisce una baseline robusta che bilancia l'efficienza computazionale con una varianza estremamente bassa. Nello specifico, introduciamo un test statistico in tempo reale e un'allocazione dinamica del budget. Questo bilancia l'alta varianza causata dal campionamento sparso rispetto al bias sistematico (o allucinazioni) insito nel prior del modello del valore. Costruendo un test di ipotesi per valutare l'affidabilità del prior in tempo reale, il sistema alloca dinamicamente un budget aggiuntivo di rollout su richiesta. Questo meccanismo minimizza l'Errore Quadratico Medio (MSE) dello stimatore della baseline, garantendo gradienti di politica stabili, anche in condizioni di estrema sparsità con una dimensione del gruppo pari a 4. Valutazioni estese su sei benchmark di ragionamento matematico dimostrano che V_{0.5} supera significativamente GRPO e DAPO, raggiungendo una convergenza più rapida e un miglioramento delle prestazioni di circa il 10%.
English
In Reinforcement Learning with Verifiable Rewards (RLVR), constructing a robust advantage baseline is critical for policy gradients, effectively guiding the policy model to reinforce desired behaviors. Recent research has introduced Generalist Value Models (such as V_0), which achieve pre-trained value estimation by explicitly encoding model capabilities in-context, eliminating the need to synchronously update the value model alongside the policy model. In this paper, we propose V_{0.5}, which adaptively fuses the baseline predicted by such value model (acting as a prior) with the empirical mean derived from sparse rollouts. This constructs a robust baseline that balances computational efficiency with extremely low variance. Specifically, we introduce a real-time statistical testing and dynamic budget allocation. This balances the high variance caused by sparse sampling against the systematic bias (or hallucinations) inherent in the value model's prior. By constructing a hypothesis test to evaluate the prior's reliability in real-time, the system dynamically allocates additional rollout budget on demand. This mechanism minimizes the baseline estimator's Mean Squared Error (MSE), guaranteeing stable policy gradients, even under extreme sparsity with a group size of 4. Extensive evaluations across six mathematical reasoning benchmarks demonstrate that V_{0.5} significantly outperforms GRPO and DAPO, achieving faster convergence and over some 10% performance improvement.