Неявная связь актора и критика через структуру обучения с учителем для RLVR
Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
September 2, 2025
Авторы: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
cs.AI
Аннотация
Последние достижения в области обучения с подкреплением с верифицируемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR) позволили крупным языковым моделям (LLM) решать сложные задачи, связанные с рассуждениями, такие как математика и программирование. RLVR использует верифицируемые награды для оптимизации политики, что позволяет LLM постепенно улучшать качество вывода в обоснованной и надежной манере. Несмотря на свои перспективы, парадигма RLVR ставит значительные вызовы, поскольку существующие методы часто страдают от редких сигналов наград и нестабильных обновлений градиента политики, особенно в подходах, основанных на обучении с подкреплением. Для решения этих проблем мы предлагаем PACS, новый фреймворк RLVR, который достигает имплицитной связи актора и критика через структуру обучения с учителем. Рассматривая награду как предсказуемую метку, мы переформулируем задачу RLVR в задачу обучения с учителем над функцией оценки, параметризованной моделью политики и оптимизированной с использованием кросс-энтропийной потери. Детальный анализ градиентов показывает, что эта формулировка с учителем естественным образом восстанавливает классическое обновление градиента политики, одновременно имплицитно связывая роли актора и критика, что приводит к более стабильному и эффективному обучению. Тестирование на сложных задачах математического рассуждения демонстрирует, что PACS превосходит сильные базовые методы RLVR, такие как PPO и GRPO, достигая превосходных результатов в рассуждениях. Например, PACS достигает 59,78% на pass@256 в AIME 2025, что на 13,32 и 14,36 пункта выше, чем у PPO и GRPO. Этот простой, но мощный фреймворк предлагает перспективный путь для пост-обучения LLM с верифицируемыми наградами. Наш код и данные доступны в открытом доступе по адресу https://github.com/ritzz-ai/PACS.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have
empowered large language models (LLMs) to tackle challenging reasoning tasks
such as mathematics and programming. RLVR leverages verifiable outcome rewards
to guide policy optimization, enabling LLMs to progressively improve output
quality in a grounded and reliable manner. Despite its promise, the RLVR
paradigm poses significant challenges, as existing methods often suffer from
sparse reward signals and unstable policy gradient updates, particularly in
RL-based approaches. To address the challenges, we propose PACS, a
novel RLVR framework that achieves imPlicit Actor
Critic coupling via a Supervised learning framework. By
treating the outcome reward as a predictable label, we reformulate the RLVR
problem into a supervised learning task over a score function parameterized by
the policy model and optimized using cross-entropy loss. A detailed gradient
analysis shows that this supervised formulation inherently recovers the
classical policy gradient update while implicitly coupling actor and critic
roles, yielding more stable and efficient training. Benchmarking on challenging
mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as
PPO and GRPO, achieving superior reasoning performance. For instance, PACS
achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32
and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a
promising avenue for LLMs post-training with verifiable rewards. Our code and
data are available as open source at https://github.com/ritzz-ai/PACS.