ChatPaper.aiChatPaper

PVPO: Оптимизация политики на основе предварительно оцененных значений для агентного рассуждения

PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

August 28, 2025
Авторы: Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Hao Wang
cs.AI

Аннотация

Методы обучения с подкреплением без критиков, в частности групповые политики, привлекают значительное внимание благодаря своей эффективности в решении сложных задач. Однако эти методы в значительной степени зависят от множественного сэмплирования и сравнений внутри политики для оценки преимущества, что может привести к попаданию политики в локальный оптимум и увеличению вычислительных затрат. Для решения этих проблем мы предлагаем PVPO — эффективный метод обучения с подкреплением, усиленный опорным якорем преимущества и предварительным сэмплированием данных. В частности, мы используем эталонную модель для предварительного прогона и применяем рассчитанный показатель награды в качестве опорного якоря. Наш подход эффективно корректирует кумулятивное смещение, вызванное внутригрупповыми сравнениями, и значительно снижает зависимость от количества прогонов. В то же время эталонная модель может оценивать сложность выборки в процессе предварительного сэмплирования данных, что позволяет эффективно отбирать данные с высокой отдачей для повышения эффективности обучения. Эксперименты, проведенные на девяти наборах данных в двух областях, демонстрируют, что PVPO достигает наилучших результатов (State-Of-The-Art, SOTA). Наш подход не только демонстрирует устойчивую обобщаемость на множестве задач, но также показывает масштабируемую производительность для моделей различного масштаба.
English
Critic-free reinforcement learning methods, particularly group policies, have attracted considerable attention for their efficiency in complex tasks. However, these methods rely heavily on multiple sampling and comparisons within the policy to estimate advantage, which may cause the policy to fall into local optimum and increase computational cost. To address these issues, we propose PVPO, an efficient reinforcement learning method enhanced by an advantage reference anchor and data pre-sampling. Specifically, we use the reference model to rollout in advance and employ the calculated reward score as a reference anchor. Our approach effectively corrects the cumulative bias introduced by intra-group comparisons and significantly reduces reliance on the number of rollouts. Meanwhile, the reference model can assess sample difficulty during data pre-sampling, enabling effective selection of high-gain data to improve training efficiency. Experiments conducted on nine datasets across two domains demonstrate that PVPO achieves State-Of-The-Art (SOTA) performance. Our approach not only demonstrates robust generalization across multiple tasks, but also exhibits scalable performance across models of varying scales.
PDF272September 2, 2025