PVPO : Optimisation de Politique Basée sur la Valeur Pré-estimée pour le Raisonnement Agentique
PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
August 28, 2025
papers.authors: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
cs.AI
papers.abstract
Les méthodes d'apprentissage par renforcement sans critique, en particulier les politiques de groupe, ont suscité un intérêt considérable pour leur efficacité dans des tâches complexes. Cependant, ces méthodes s'appuient fortement sur des échantillonnages multiples et des comparaisons au sein de la politique pour estimer l'avantage, ce qui peut entraîner la politique dans un optimum local et augmenter les coûts de calcul. Pour résoudre ces problèmes, nous proposons PVPO, une méthode d'apprentissage par renforcement efficace améliorée par une ancre de référence d'avantage et un pré-échantillonnage des données. Plus précisément, nous utilisons le modèle de référence pour effectuer des simulations à l'avance et employons le score de récompense calculé comme ancre de référence. Notre approche corrige efficacement le biais cumulatif introduit par les comparaisons intra-groupe et réduit significativement la dépendance au nombre de simulations. Par ailleurs, le modèle de référence peut évaluer la difficulté des échantillons lors du pré-échantillonnage des données, permettant une sélection efficace des données à fort gain pour améliorer l'efficacité de l'entraînement. Les expériences menées sur neuf jeux de données dans deux domaines démontrent que PVPO atteint des performances de pointe (State-Of-The-Art, SOTA). Notre approche montre non seulement une robuste généralisation à travers plusieurs tâches, mais présente également des performances évolutives sur des modèles de différentes échelles.
English
Critic-free reinforcement learning methods, particularly group policies, have
attracted considerable attention for their efficiency in complex tasks.
However, these methods rely heavily on multiple sampling and comparisons within
the policy to estimate advantage, which may cause the policy to fall into local
optimum and increase computational cost. To address these issues, we propose
PVPO, an efficient reinforcement learning method enhanced by an advantage
reference anchor and data pre-sampling. Specifically, we use the reference
model to rollout in advance and employ the calculated reward score as a
reference anchor. Our approach effectively corrects the cumulative bias
introduced by intra-group comparisons and significantly reduces reliance on the
number of rollouts. Meanwhile, the reference model can assess sample difficulty
during data pre-sampling, enabling effective selection of high-gain data to
improve training efficiency. Experiments conducted on nine datasets across two
domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our
approach not only demonstrates robust generalization across multiple tasks, but
also exhibits scalable performance across models of varying scales.