ChatPaper.aiChatPaper

PVPO: Ottimizzazione delle Politiche Basata su Valori Pre-Stimati per il Ragionamento Agente

PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

August 28, 2025
Autori: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
cs.AI

Abstract

I metodi di reinforcement learning senza critico, in particolare le politiche di gruppo, hanno attirato notevole attenzione per la loro efficienza in compiti complessi. Tuttavia, questi metodi si basano fortemente su campionamenti multipli e confronti all'interno della politica per stimare il vantaggio, il che può portare la politica a cadere in un ottimo locale e aumentare il costo computazionale. Per affrontare questi problemi, proponiamo PVPO, un metodo efficiente di reinforcement learning potenziato da un'ancora di riferimento per il vantaggio e un pre-campionamento dei dati. Nello specifico, utilizziamo il modello di riferimento per eseguire rollout in anticipo e impieghiamo il punteggio di ricompensa calcolato come ancora di riferimento. Il nostro approccio corregge efficacemente il bias cumulativo introdotto dai confronti intra-gruppo e riduce significativamente la dipendenza dal numero di rollout. Nel frattempo, il modello di riferimento può valutare la difficoltà del campione durante il pre-campionamento dei dati, consentendo una selezione efficace di dati ad alto guadagno per migliorare l'efficienza dell'addestramento. Esperimenti condotti su nove dataset in due domini dimostrano che PVPO raggiunge prestazioni State-Of-The-Art (SOTA). Il nostro approccio non solo dimostra una robusta generalizzazione su più compiti, ma mostra anche prestazioni scalabili su modelli di varia scala.
English
Critic-free reinforcement learning methods, particularly group policies, have attracted considerable attention for their efficiency in complex tasks. However, these methods rely heavily on multiple sampling and comparisons within the policy to estimate advantage, which may cause the policy to fall into local optimum and increase computational cost. To address these issues, we propose PVPO, an efficient reinforcement learning method enhanced by an advantage reference anchor and data pre-sampling. Specifically, we use the reference model to rollout in advance and employ the calculated reward score as a reference anchor. Our approach effectively corrects the cumulative bias introduced by intra-group comparisons and significantly reduces reliance on the number of rollouts. Meanwhile, the reference model can assess sample difficulty during data pre-sampling, enabling effective selection of high-gain data to improve training efficiency. Experiments conducted on nine datasets across two domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our approach not only demonstrates robust generalization across multiple tasks, but also exhibits scalable performance across models of varying scales.
PDF322September 2, 2025