Acoplamento Implícito de Ator-Crítico por meio de uma Estrutura de Aprendizado Supervisionado para RLVR

Resumo

Avanços recentes em Aprendizado por Reforço com Recompensas Verificáveis (RLVR) têm capacitado grandes modelos de linguagem (LLMs) a enfrentar tarefas desafiadoras de raciocínio, como matemática e programação. O RLVR aproveita recompensas de resultados verificáveis para orientar a otimização de políticas, permitindo que os LLMs melhorem progressivamente a qualidade da saída de maneira fundamentada e confiável. Apesar de seu potencial, o paradigma RLVR apresenta desafios significativos, pois os métodos existentes frequentemente sofrem com sinais de recompensa esparsos e atualizações instáveis de gradiente de política, especialmente em abordagens baseadas em RL. Para enfrentar esses desafios, propomos o PACS, uma nova estrutura RLVR que alcança o acoplamento implícito entre Ator e Crítico por meio de uma estrutura de Aprendizado Supervisionado. Ao tratar a recompensa do resultado como um rótulo previsível, reformulamos o problema RLVR em uma tarefa de aprendizado supervisionado sobre uma função de pontuação parametrizada pelo modelo de política e otimizada usando perda de entropia cruzada. Uma análise detalhada do gradiente mostra que essa formulação supervisionada recupera intrinsecamente a atualização clássica do gradiente de política enquanto acopla implicitamente os papéis de ator e crítico, resultando em um treinamento mais estável e eficiente. Em benchmarks de tarefas desafiadoras de raciocínio matemático, o PACS supera as fortes baselines RLVR, como PPO e GRPO, alcançando desempenho superior de raciocínio. Por exemplo, o PACS atinge 59,78% em pass@256 no AIME 2025, representando melhorias de 13,32 e 14,36 pontos sobre PPO e GRPO. Essa estrutura simples, porém poderosa, oferece uma abordagem promissora para o pós-treinamento de LLMs com recompensas verificáveis. Nosso código e dados estão disponíveis como código aberto em https://github.com/ritzz-ai/PACS.

English

Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have empowered large language models (LLMs) to tackle challenging reasoning tasks such as mathematics and programming. RLVR leverages verifiable outcome rewards to guide policy optimization, enabling LLMs to progressively improve output quality in a grounded and reliable manner. Despite its promise, the RLVR paradigm poses significant challenges, as existing methods often suffer from sparse reward signals and unstable policy gradient updates, particularly in RL-based approaches. To address the challenges, we propose PACS, a novel RLVR framework that achieves imPlicit Actor Critic coupling via a Supervised learning framework. By treating the outcome reward as a predictable label, we reformulate the RLVR problem into a supervised learning task over a score function parameterized by the policy model and optimized using cross-entropy loss. A detailed gradient analysis shows that this supervised formulation inherently recovers the classical policy gradient update while implicitly coupling actor and critic roles, yielding more stable and efficient training. Benchmarking on challenging mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as PPO and GRPO, achieving superior reasoning performance. For instance, PACS achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32 and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a promising avenue for LLMs post-training with verifiable rewards. Our code and data are available as open source at https://github.com/ritzz-ai/PACS.

Acoplamento Implícito de Ator-Crítico por meio de uma Estrutura de Aprendizado Supervisionado para RLVR

Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

Resumo

Support