Acoplamento Implícito de Ator-Crítico por meio de uma Estrutura de Aprendizado Supervisionado para RLVR
Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
September 2, 2025
Autores: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
cs.AI
Resumo
Avanços recentes em Aprendizado por Reforço com Recompensas Verificáveis (RLVR) têm capacitado grandes modelos de linguagem (LLMs) a enfrentar tarefas desafiadoras de raciocínio, como matemática e programação. O RLVR aproveita recompensas de resultados verificáveis para orientar a otimização de políticas, permitindo que os LLMs melhorem progressivamente a qualidade da saída de maneira fundamentada e confiável. Apesar de seu potencial, o paradigma RLVR apresenta desafios significativos, pois os métodos existentes frequentemente sofrem com sinais de recompensa esparsos e atualizações instáveis de gradiente de política, especialmente em abordagens baseadas em RL. Para enfrentar esses desafios, propomos o PACS, uma nova estrutura RLVR que alcança o acoplamento implícito entre Ator e Crítico por meio de uma estrutura de Aprendizado Supervisionado. Ao tratar a recompensa do resultado como um rótulo previsível, reformulamos o problema RLVR em uma tarefa de aprendizado supervisionado sobre uma função de pontuação parametrizada pelo modelo de política e otimizada usando perda de entropia cruzada. Uma análise detalhada do gradiente mostra que essa formulação supervisionada recupera intrinsecamente a atualização clássica do gradiente de política enquanto acopla implicitamente os papéis de ator e crítico, resultando em um treinamento mais estável e eficiente. Em benchmarks de tarefas desafiadoras de raciocínio matemático, o PACS supera as fortes baselines RLVR, como PPO e GRPO, alcançando desempenho superior de raciocínio. Por exemplo, o PACS atinge 59,78% em pass@256 no AIME 2025, representando melhorias de 13,32 e 14,36 pontos sobre PPO e GRPO. Essa estrutura simples, porém poderosa, oferece uma abordagem promissora para o pós-treinamento de LLMs com recompensas verificáveis. Nosso código e dados estão disponíveis como código aberto em https://github.com/ritzz-ai/PACS.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have
empowered large language models (LLMs) to tackle challenging reasoning tasks
such as mathematics and programming. RLVR leverages verifiable outcome rewards
to guide policy optimization, enabling LLMs to progressively improve output
quality in a grounded and reliable manner. Despite its promise, the RLVR
paradigm poses significant challenges, as existing methods often suffer from
sparse reward signals and unstable policy gradient updates, particularly in
RL-based approaches. To address the challenges, we propose PACS, a
novel RLVR framework that achieves imPlicit Actor
Critic coupling via a Supervised learning framework. By
treating the outcome reward as a predictable label, we reformulate the RLVR
problem into a supervised learning task over a score function parameterized by
the policy model and optimized using cross-entropy loss. A detailed gradient
analysis shows that this supervised formulation inherently recovers the
classical policy gradient update while implicitly coupling actor and critic
roles, yielding more stable and efficient training. Benchmarking on challenging
mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as
PPO and GRPO, achieving superior reasoning performance. For instance, PACS
achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32
and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a
promising avenue for LLMs post-training with verifiable rewards. Our code and
data are available as open source at https://github.com/ritzz-ai/PACS.