ChatPaper.aiChatPaper

Неявная связь актора и критика через структуру обучения с учителем для RLVR

Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

September 2, 2025
Авторы: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
cs.AI

Аннотация

Последние достижения в области обучения с подкреплением с верифицируемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR) позволили крупным языковым моделям (LLM) решать сложные задачи, связанные с рассуждениями, такие как математика и программирование. RLVR использует верифицируемые награды для оптимизации политики, что позволяет LLM постепенно улучшать качество вывода в обоснованной и надежной манере. Несмотря на свои перспективы, парадигма RLVR ставит значительные вызовы, поскольку существующие методы часто страдают от редких сигналов наград и нестабильных обновлений градиента политики, особенно в подходах, основанных на обучении с подкреплением. Для решения этих проблем мы предлагаем PACS, новый фреймворк RLVR, который достигает имплицитной связи актора и критика через структуру обучения с учителем. Рассматривая награду как предсказуемую метку, мы переформулируем задачу RLVR в задачу обучения с учителем над функцией оценки, параметризованной моделью политики и оптимизированной с использованием кросс-энтропийной потери. Детальный анализ градиентов показывает, что эта формулировка с учителем естественным образом восстанавливает классическое обновление градиента политики, одновременно имплицитно связывая роли актора и критика, что приводит к более стабильному и эффективному обучению. Тестирование на сложных задачах математического рассуждения демонстрирует, что PACS превосходит сильные базовые методы RLVR, такие как PPO и GRPO, достигая превосходных результатов в рассуждениях. Например, PACS достигает 59,78% на pass@256 в AIME 2025, что на 13,32 и 14,36 пункта выше, чем у PPO и GRPO. Этот простой, но мощный фреймворк предлагает перспективный путь для пост-обучения LLM с верифицируемыми наградами. Наш код и данные доступны в открытом доступе по адресу https://github.com/ritzz-ai/PACS.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have empowered large language models (LLMs) to tackle challenging reasoning tasks such as mathematics and programming. RLVR leverages verifiable outcome rewards to guide policy optimization, enabling LLMs to progressively improve output quality in a grounded and reliable manner. Despite its promise, the RLVR paradigm poses significant challenges, as existing methods often suffer from sparse reward signals and unstable policy gradient updates, particularly in RL-based approaches. To address the challenges, we propose PACS, a novel RLVR framework that achieves imPlicit Actor Critic coupling via a Supervised learning framework. By treating the outcome reward as a predictable label, we reformulate the RLVR problem into a supervised learning task over a score function parameterized by the policy model and optimized using cross-entropy loss. A detailed gradient analysis shows that this supervised formulation inherently recovers the classical policy gradient update while implicitly coupling actor and critic roles, yielding more stable and efficient training. Benchmarking on challenging mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as PPO and GRPO, achieving superior reasoning performance. For instance, PACS achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32 and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a promising avenue for LLMs post-training with verifiable rewards. Our code and data are available as open source at https://github.com/ritzz-ai/PACS.
PDF222September 3, 2025