ChatPaper.aiChatPaper

PVPO: Otimização de Políticas Baseada em Valor Pré-Estimado para Raciocínio Agente

PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

August 28, 2025
Autores: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
cs.AI

Resumo

Métodos de aprendizado por reforço sem crítico, particularmente políticas de grupo, têm atraído considerável atenção por sua eficiência em tarefas complexas. No entanto, esses métodos dependem fortemente de múltiplas amostragens e comparações dentro da política para estimar a vantagem, o que pode fazer com que a política caia em um ótimo local e aumente o custo computacional. Para abordar esses problemas, propomos o PVPO, um método eficiente de aprendizado por reforço aprimorado por uma âncora de referência de vantagem e pré-amostragem de dados. Especificamente, usamos o modelo de referência para realizar rollouts antecipadamente e empregamos a pontuação de recompensa calculada como uma âncora de referência. Nossa abordagem corrige efetivamente o viés cumulativo introduzido por comparações intra-grupo e reduz significativamente a dependência do número de rollouts. Enquanto isso, o modelo de referência pode avaliar a dificuldade da amostra durante a pré-amostragem de dados, permitindo a seleção eficaz de dados de alto ganho para melhorar a eficiência do treinamento. Experimentos realizados em nove conjuntos de dados em dois domínios demonstram que o PVPO alcança desempenho State-Of-The-Art (SOTA). Nossa abordagem não apenas demonstra generalização robusta em múltiplas tarefas, mas também exibe desempenho escalável em modelos de diversas escalas.
English
Critic-free reinforcement learning methods, particularly group policies, have attracted considerable attention for their efficiency in complex tasks. However, these methods rely heavily on multiple sampling and comparisons within the policy to estimate advantage, which may cause the policy to fall into local optimum and increase computational cost. To address these issues, we propose PVPO, an efficient reinforcement learning method enhanced by an advantage reference anchor and data pre-sampling. Specifically, we use the reference model to rollout in advance and employ the calculated reward score as a reference anchor. Our approach effectively corrects the cumulative bias introduced by intra-group comparisons and significantly reduces reliance on the number of rollouts. Meanwhile, the reference model can assess sample difficulty during data pre-sampling, enabling effective selection of high-gain data to improve training efficiency. Experiments conducted on nine datasets across two domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our approach not only demonstrates robust generalization across multiple tasks, but also exhibits scalable performance across models of varying scales.
PDF292September 2, 2025