PVPO: Pre-Geschatte Waarde-Gebaseerd Beleidsoptimalisatie voor Agentisch Redeneren
PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
August 28, 2025
Auteurs: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
cs.AI
Samenvatting
Critic-vrije reinforcement learning-methoden, met name groepsbeleidsregels, hebben aanzienlijke aandacht getrokken vanwege hun efficiëntie in complexe taken. Deze methoden zijn echter sterk afhankelijk van meervoudige steekproeven en vergelijkingen binnen het beleid om het voordeel te schatten, wat kan leiden tot lokale optima en hogere rekenkosten. Om deze problemen aan te pakken, stellen we PVPO voor, een efficiënte reinforcement learning-methode versterkt door een referentieanker voor het voordeel en voorafgaande gegevenssteekproeven. Specifiek gebruiken we het referentiemodel om vooraf te rollen en de berekende beloningsscore als referentieanker te gebruiken. Onze aanpak corrigeert effectief de cumulatieve bias die wordt geïntroduceerd door intra-groepsvergelijkingen en vermindert de afhankelijkheid van het aantal rollouts aanzienlijk. Tegelijkertijd kan het referentiemodel de moeilijkheidsgraad van steekproeven beoordelen tijdens de voorafgaande gegevenssteekproeven, waardoor een effectieve selectie van hoogrenderende gegevens mogelijk is om de trainings efficiëntie te verbeteren. Experimenten uitgevoerd op negen datasets in twee domeinen tonen aan dat PVPO State-Of-The-Art (SOTA) prestaties bereikt. Onze aanpak toont niet alleen robuuste generalisatie over meerdere taken, maar vertoont ook schaalbare prestaties over modellen van verschillende schalen.
English
Critic-free reinforcement learning methods, particularly group policies, have
attracted considerable attention for their efficiency in complex tasks.
However, these methods rely heavily on multiple sampling and comparisons within
the policy to estimate advantage, which may cause the policy to fall into local
optimum and increase computational cost. To address these issues, we propose
PVPO, an efficient reinforcement learning method enhanced by an advantage
reference anchor and data pre-sampling. Specifically, we use the reference
model to rollout in advance and employ the calculated reward score as a
reference anchor. Our approach effectively corrects the cumulative bias
introduced by intra-group comparisons and significantly reduces reliance on the
number of rollouts. Meanwhile, the reference model can assess sample difficulty
during data pre-sampling, enabling effective selection of high-gain data to
improve training efficiency. Experiments conducted on nine datasets across two
domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our
approach not only demonstrates robust generalization across multiple tasks, but
also exhibits scalable performance across models of varying scales.