PVPO: Оптимизация политики на основе предварительно оцененных значений для агентного рассуждения
PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
August 28, 2025
Авторы: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
cs.AI
Аннотация
Методы обучения с подкреплением без критиков, в частности групповые политики, привлекают значительное внимание благодаря своей эффективности в решении сложных задач. Однако эти методы в значительной степени зависят от множественного сэмплирования и сравнений внутри политики для оценки преимущества, что может привести к попаданию политики в локальный оптимум и увеличению вычислительных затрат. Для решения этих проблем мы предлагаем PVPO — эффективный метод обучения с подкреплением, усиленный опорным якорем преимущества и предварительным сэмплированием данных. В частности, мы используем эталонную модель для предварительного прогона и применяем рассчитанный показатель награды в качестве опорного якоря. Наш подход эффективно корректирует кумулятивное смещение, вызванное внутригрупповыми сравнениями, и значительно снижает зависимость от количества прогонов. В то же время эталонная модель может оценивать сложность выборки в процессе предварительного сэмплирования данных, что позволяет эффективно отбирать данные с высокой отдачей для повышения эффективности обучения. Эксперименты, проведенные на девяти наборах данных в двух областях, демонстрируют, что PVPO достигает наилучших результатов (State-Of-The-Art, SOTA). Наш подход не только демонстрирует устойчивую обобщаемость на множестве задач, но также показывает масштабируемую производительность для моделей различного масштаба.
English
Critic-free reinforcement learning methods, particularly group policies, have
attracted considerable attention for their efficiency in complex tasks.
However, these methods rely heavily on multiple sampling and comparisons within
the policy to estimate advantage, which may cause the policy to fall into local
optimum and increase computational cost. To address these issues, we propose
PVPO, an efficient reinforcement learning method enhanced by an advantage
reference anchor and data pre-sampling. Specifically, we use the reference
model to rollout in advance and employ the calculated reward score as a
reference anchor. Our approach effectively corrects the cumulative bias
introduced by intra-group comparisons and significantly reduces reliance on the
number of rollouts. Meanwhile, the reference model can assess sample difficulty
during data pre-sampling, enabling effective selection of high-gain data to
improve training efficiency. Experiments conducted on nine datasets across two
domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our
approach not only demonstrates robust generalization across multiple tasks, but
also exhibits scalable performance across models of varying scales.