PVPO: Otimização de Políticas Baseada em Valor Pré-Estimado para Raciocínio Agente
PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
August 28, 2025
Autores: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
cs.AI
Resumo
Métodos de aprendizado por reforço sem crítico, particularmente políticas de grupo, têm atraído considerável atenção por sua eficiência em tarefas complexas. No entanto, esses métodos dependem fortemente de múltiplas amostragens e comparações dentro da política para estimar a vantagem, o que pode fazer com que a política caia em um ótimo local e aumente o custo computacional. Para abordar esses problemas, propomos o PVPO, um método eficiente de aprendizado por reforço aprimorado por uma âncora de referência de vantagem e pré-amostragem de dados. Especificamente, usamos o modelo de referência para realizar rollouts antecipadamente e empregamos a pontuação de recompensa calculada como uma âncora de referência. Nossa abordagem corrige efetivamente o viés cumulativo introduzido por comparações intra-grupo e reduz significativamente a dependência do número de rollouts. Enquanto isso, o modelo de referência pode avaliar a dificuldade da amostra durante a pré-amostragem de dados, permitindo a seleção eficaz de dados de alto ganho para melhorar a eficiência do treinamento. Experimentos realizados em nove conjuntos de dados em dois domínios demonstram que o PVPO alcança desempenho State-Of-The-Art (SOTA). Nossa abordagem não apenas demonstra generalização robusta em múltiplas tarefas, mas também exibe desempenho escalável em modelos de diversas escalas.
English
Critic-free reinforcement learning methods, particularly group policies, have
attracted considerable attention for their efficiency in complex tasks.
However, these methods rely heavily on multiple sampling and comparisons within
the policy to estimate advantage, which may cause the policy to fall into local
optimum and increase computational cost. To address these issues, we propose
PVPO, an efficient reinforcement learning method enhanced by an advantage
reference anchor and data pre-sampling. Specifically, we use the reference
model to rollout in advance and employ the calculated reward score as a
reference anchor. Our approach effectively corrects the cumulative bias
introduced by intra-group comparisons and significantly reduces reliance on the
number of rollouts. Meanwhile, the reference model can assess sample difficulty
during data pre-sampling, enabling effective selection of high-gain data to
improve training efficiency. Experiments conducted on nine datasets across two
domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our
approach not only demonstrates robust generalization across multiple tasks, but
also exhibits scalable performance across models of varying scales.