V_{0.5}: Modelo de Valor Generalista como um Prior para Rollouts Esparsos de RL
V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts
March 11, 2026
Autores: Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye
cs.AI
Resumo
No Aprendizado por Reforço com Recompensas Verificáveis (RLVR), a construção de uma linha de base de vantagem robusta é crucial para os gradientes de política, orientando efetivamente o modelo de política a reforçar comportamentos desejados. Pesquisas recentes introduziram Modelos de Valor Generalistas (como o V_0), que alcançam estimativas de valor pré-treinadas codificando explicitamente as capacidades do modelo em contexto, eliminando a necessidade de atualizar o modelo de valor sincronamente com o modelo de política. Neste artigo, propomos o V_{0,5}, que funde adaptativamente a linha de base prevista por tal modelo de valor (atuando como um prior) com a média empírica derivada de rollouts esparsos. Isso constrói uma linha de base robusta que equilibra eficiência computacional com variância extremamente baixa. Especificamente, introduzimos um teste estatístico em tempo real e uma alocação dinâmica de orçamento. Isso equilibra a alta variância causada pela amostragem esparsa com o viés sistemático (ou alucinações) inerente ao prior do modelo de valor. Ao construir um teste de hipótese para avaliar a confiabilidade do prior em tempo real, o sistema aloca dinamicamente um orçamento adicional de rollouts sob demanda. Este mecanismo minimiza o Erro Quadrático Médio (EQM) do estimador de linha de base, garantindo gradientes de política estáveis, mesmo sob extrema esparsidade com um tamanho de grupo de 4. Extensivas avaliações em seis benchmarks de raciocínio matemático demonstram que o V_{0,5} supera significativamente o GRPO e o DAPO, alcançando convergência mais rápida e uma melhoria de desempenho de aproximadamente 10%.
English
In Reinforcement Learning with Verifiable Rewards (RLVR), constructing a robust advantage baseline is critical for policy gradients, effectively guiding the policy model to reinforce desired behaviors. Recent research has introduced Generalist Value Models (such as V_0), which achieve pre-trained value estimation by explicitly encoding model capabilities in-context, eliminating the need to synchronously update the value model alongside the policy model. In this paper, we propose V_{0.5}, which adaptively fuses the baseline predicted by such value model (acting as a prior) with the empirical mean derived from sparse rollouts. This constructs a robust baseline that balances computational efficiency with extremely low variance. Specifically, we introduce a real-time statistical testing and dynamic budget allocation. This balances the high variance caused by sparse sampling against the systematic bias (or hallucinations) inherent in the value model's prior. By constructing a hypothesis test to evaluate the prior's reliability in real-time, the system dynamically allocates additional rollout budget on demand. This mechanism minimizes the baseline estimator's Mean Squared Error (MSE), guaranteeing stable policy gradients, even under extreme sparsity with a group size of 4. Extensive evaluations across six mathematical reasoning benchmarks demonstrate that V_{0.5} significantly outperforms GRPO and DAPO, achieving faster convergence and over some 10% performance improvement.