V_{0.5}: Modelo de Valor Generalista como una Distribución Previa para Rollouts de RL Dispersos

Resumen

En el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), la construcción de una línea de base de ventaja robusta es fundamental para los gradientes de política, guiando eficazmente al modelo de política para reforzar los comportamientos deseados. Investigaciones recientes han introducido Modelos de Valor Generalistas (como V_0), que logran una estimación de valor preentrenada codificando explícitamente las capacidades del modelo en contexto, eliminando la necesidad de actualizar sincrónicamente el modelo de valor junto con el modelo de política. En este artículo, proponemos V_{0.5}, que fusiona de forma adaptativa la línea de base predicha por dicho modelo de valor (que actúa como un prior) con la media empírica derivada de rollouts dispersos. Esto construye una línea de base robusta que equilibra la eficiencia computacional con una varianza extremadamente baja. Específicamente, introducimos una prueba estadística en tiempo real y una asignación dinámica de presupuesto. Esto equilibra la alta varianza causada por el muestreo disperso frente al sesgo sistemático (o alucinaciones) inherente al prior del modelo de valor. Al construir una prueba de hipótesis para evaluar la confiabilidad del prior en tiempo real, el sistema asigna dinámicamente un presupuesto adicional de rollouts bajo demanda. Este mecanismo minimiza el Error Cuadrático Medio (ECM) del estimador de la línea de base, garantizando gradientes de política estables, incluso bajo una extrema dispersión con un tamaño de grupo de 4. Evaluaciones exhaustivas en seis benchmarks de razonamiento matemático demuestran que V_{0.5} supera significativamente a GRPO y DAPO, logrando una convergencia más rápida y una mejora de rendimiento de aproximadamente un 10%.

English

In Reinforcement Learning with Verifiable Rewards (RLVR), constructing a robust advantage baseline is critical for policy gradients, effectively guiding the policy model to reinforce desired behaviors. Recent research has introduced Generalist Value Models (such as V_0), which achieve pre-trained value estimation by explicitly encoding model capabilities in-context, eliminating the need to synchronously update the value model alongside the policy model. In this paper, we propose V_{0.5}, which adaptively fuses the baseline predicted by such value model (acting as a prior) with the empirical mean derived from sparse rollouts. This constructs a robust baseline that balances computational efficiency with extremely low variance. Specifically, we introduce a real-time statistical testing and dynamic budget allocation. This balances the high variance caused by sparse sampling against the systematic bias (or hallucinations) inherent in the value model's prior. By constructing a hypothesis test to evaluate the prior's reliability in real-time, the system dynamically allocates additional rollout budget on demand. This mechanism minimizes the baseline estimator's Mean Squared Error (MSE), guaranteeing stable policy gradients, even under extreme sparsity with a group size of 4. Extensive evaluations across six mathematical reasoning benchmarks demonstrate that V_{0.5} significantly outperforms GRPO and DAPO, achieving faster convergence and over some 10% performance improvement.

V_{0.5}: Modelo de Valor Generalista como una Distribución Previa para Rollouts de RL Dispersos

V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Resumen

Support