Couplage Implicite Acteur-Critique via un Cadre d'Apprentissage Supervisé pour RLVR
Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
September 2, 2025
papers.authors: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
cs.AI
papers.abstract
Les avancées récentes dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ont permis aux grands modèles de langage (LLMs) de s'attaquer à des tâches de raisonnement complexes telles que les mathématiques et la programmation. Le RLVR exploite des récompenses basées sur des résultats vérifiables pour guider l'optimisation des politiques, permettant ainsi aux LLMs d'améliorer progressivement la qualité de leurs sorties de manière fiable et ancrée. Malgré son potentiel, le paradigme RLVR présente des défis importants, car les méthodes existantes souffrent souvent de signaux de récompense épars et de mises à jour instables des gradients de politique, en particulier dans les approches basées sur l'apprentissage par renforcement. Pour relever ces défis, nous proposons PACS, un nouveau cadre RLVR qui réalise un couplage implicite entre l'acteur et le critique via un cadre d'apprentissage supervisé. En traitant la récompense de résultat comme une étiquette prédictible, nous reformulons le problème RLVR en une tâche d'apprentissage supervisé sur une fonction de score paramétrée par le modèle de politique et optimisée à l'aide de la perte d'entropie croisée. Une analyse détaillée des gradients montre que cette formulation supervisée récupère intrinsèquement la mise à jour classique du gradient de politique tout en couplant implicitement les rôles d'acteur et de critique, ce qui permet un entraînement plus stable et efficace. Lors de tests sur des tâches de raisonnement mathématique complexes, PACS surpasse les bases de référence RLVR, telles que PPO et GRPO, en obtenant des performances de raisonnement supérieures. Par exemple, PACS atteint 59,78 % à pass@256 sur AIME 2025, représentant des améliorations de 13,32 et 14,36 points par rapport à PPO et GRPO. Ce cadre simple mais puissant offre une voie prometteuse pour le post-entraînement des LLMs avec des récompenses vérifiables. Notre code et nos données sont disponibles en open source à l'adresse https://github.com/ritzz-ai/PACS.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have
empowered large language models (LLMs) to tackle challenging reasoning tasks
such as mathematics and programming. RLVR leverages verifiable outcome rewards
to guide policy optimization, enabling LLMs to progressively improve output
quality in a grounded and reliable manner. Despite its promise, the RLVR
paradigm poses significant challenges, as existing methods often suffer from
sparse reward signals and unstable policy gradient updates, particularly in
RL-based approaches. To address the challenges, we propose PACS, a
novel RLVR framework that achieves imPlicit Actor
Critic coupling via a Supervised learning framework. By
treating the outcome reward as a predictable label, we reformulate the RLVR
problem into a supervised learning task over a score function parameterized by
the policy model and optimized using cross-entropy loss. A detailed gradient
analysis shows that this supervised formulation inherently recovers the
classical policy gradient update while implicitly coupling actor and critic
roles, yielding more stable and efficient training. Benchmarking on challenging
mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as
PPO and GRPO, achieving superior reasoning performance. For instance, PACS
achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32
and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a
promising avenue for LLMs post-training with verifiable rewards. Our code and
data are available as open source at https://github.com/ritzz-ai/PACS.