ChatPaper.aiChatPaper

PVPO: Pre-Geschatte Waarde-Gebaseerd Beleidsoptimalisatie voor Agentisch Redeneren

PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

August 28, 2025
Auteurs: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
cs.AI

Samenvatting

Critic-vrije reinforcement learning-methoden, met name groepsbeleidsregels, hebben aanzienlijke aandacht getrokken vanwege hun efficiëntie in complexe taken. Deze methoden zijn echter sterk afhankelijk van meervoudige steekproeven en vergelijkingen binnen het beleid om het voordeel te schatten, wat kan leiden tot lokale optima en hogere rekenkosten. Om deze problemen aan te pakken, stellen we PVPO voor, een efficiënte reinforcement learning-methode versterkt door een referentieanker voor het voordeel en voorafgaande gegevenssteekproeven. Specifiek gebruiken we het referentiemodel om vooraf te rollen en de berekende beloningsscore als referentieanker te gebruiken. Onze aanpak corrigeert effectief de cumulatieve bias die wordt geïntroduceerd door intra-groepsvergelijkingen en vermindert de afhankelijkheid van het aantal rollouts aanzienlijk. Tegelijkertijd kan het referentiemodel de moeilijkheidsgraad van steekproeven beoordelen tijdens de voorafgaande gegevenssteekproeven, waardoor een effectieve selectie van hoogrenderende gegevens mogelijk is om de trainings efficiëntie te verbeteren. Experimenten uitgevoerd op negen datasets in twee domeinen tonen aan dat PVPO State-Of-The-Art (SOTA) prestaties bereikt. Onze aanpak toont niet alleen robuuste generalisatie over meerdere taken, maar vertoont ook schaalbare prestaties over modellen van verschillende schalen.
English
Critic-free reinforcement learning methods, particularly group policies, have attracted considerable attention for their efficiency in complex tasks. However, these methods rely heavily on multiple sampling and comparisons within the policy to estimate advantage, which may cause the policy to fall into local optimum and increase computational cost. To address these issues, we propose PVPO, an efficient reinforcement learning method enhanced by an advantage reference anchor and data pre-sampling. Specifically, we use the reference model to rollout in advance and employ the calculated reward score as a reference anchor. Our approach effectively corrects the cumulative bias introduced by intra-group comparisons and significantly reduces reliance on the number of rollouts. Meanwhile, the reference model can assess sample difficulty during data pre-sampling, enabling effective selection of high-gain data to improve training efficiency. Experiments conducted on nine datasets across two domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our approach not only demonstrates robust generalization across multiple tasks, but also exhibits scalable performance across models of varying scales.
PDF322September 2, 2025