V_{0.5} : Modèle de Valeur Généraliste comme A Priori pour les Déploiements Épars en RL
V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts
March 11, 2026
Auteurs: Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye
cs.AI
Résumé
Dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR), la construction d'une baseline robuste de l'avantage est cruciale pour les méthodes de gradient de politique, guidant efficacement le modèle de politique à renforcer les comportements souhaités. Des recherches récentes ont introduit des modèles de valeur généralistes (tels que V_0), qui réalisent une estimation de valeur pré-entraînée en encodant explicitement les capacités du modèle en contexte, éliminant ainsi le besoin de mettre à jour synchroniquement le modèle de valeur avec le modèle de politique. Dans cet article, nous proposons V_{0,5}, qui fusionne de manière adaptative la baseline prédite par un tel modèle de valeur (agissant comme un a priori) avec la moyenne empirique dérivée de rollouts épars. Cela construit une baseline robuste qui équilibre l'efficacité computationnelle avec une variance extrêmement faible. Plus précisément, nous introduisons un test statistique en temps réel et une allocation dynamique du budget. Ceci équilibre la forte variance causée par l'échantillonnage épars avec le biais systématique (ou les hallucinations) inhérent à l'a priori du modèle de valeur. En construisant un test d'hypothèse pour évaluer la fiabilité de l'a priori en temps réel, le système alloue dynamiquement un budget de rollout supplémentaire à la demande. Ce mécanisme minimise l'erreur quadratique moyenne (EQM) de l'estimateur de baseline, garantissant des gradients de politique stables, même sous une extrême parcimonie avec une taille de groupe de 4. Des évaluations approfondies sur six benchmarks de raisonnement mathématique démontrent que V_{0,5} surpasse significativement GRPO et DAPO, atteignant une convergence plus rapide et une amélioration des performances d'environ 10 %.
English
In Reinforcement Learning with Verifiable Rewards (RLVR), constructing a robust advantage baseline is critical for policy gradients, effectively guiding the policy model to reinforce desired behaviors. Recent research has introduced Generalist Value Models (such as V_0), which achieve pre-trained value estimation by explicitly encoding model capabilities in-context, eliminating the need to synchronously update the value model alongside the policy model. In this paper, we propose V_{0.5}, which adaptively fuses the baseline predicted by such value model (acting as a prior) with the empirical mean derived from sparse rollouts. This constructs a robust baseline that balances computational efficiency with extremely low variance. Specifically, we introduce a real-time statistical testing and dynamic budget allocation. This balances the high variance caused by sparse sampling against the systematic bias (or hallucinations) inherent in the value model's prior. By constructing a hypothesis test to evaluate the prior's reliability in real-time, the system dynamically allocates additional rollout budget on demand. This mechanism minimizes the baseline estimator's Mean Squared Error (MSE), guaranteeing stable policy gradients, even under extreme sparsity with a group size of 4. Extensive evaluations across six mathematical reasoning benchmarks demonstrate that V_{0.5} significantly outperforms GRPO and DAPO, achieving faster convergence and over some 10% performance improvement.