ChatPaper.aiChatPaper

Impliciete Actor-Critic Koppeling via een Begeleid Leerframework voor RLVR

Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

September 2, 2025
Auteurs: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
cs.AI

Samenvatting

Recente vooruitgang in Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft grote taalmmodellen (LLMs) in staat gesteld om uitdagende redeneertaken aan te pakken, zoals wiskunde en programmeren. RLVR maakt gebruik van verifieerbare uitkomstbeloningen om beleidsoptimalisatie te sturen, waardoor LLMs op een gegronde en betrouwbare manier de uitvoerkwaliteit kunnen verbeteren. Ondanks de belofte brengt het RLVR-paradigma aanzienlijke uitdagingen met zich mee, aangezien bestaande methoden vaak te lijden hebben onder schaarse beloningssignalen en onstabiele beleidsgradiëntupdates, met name in RL-gebaseerde benaderingen. Om deze uitdagingen aan te pakken, stellen we PACS voor, een nieuw RLVR-raamwerk dat imPliciete Actor-Critic-koppeling bereikt via een Supervised learning-raamwerk. Door de uitkomstbeloning te behandelen als een voorspelbaar label, herformuleren we het RLVR-probleem tot een supervised learning-taak over een scorefunctie die wordt geparameteriseerd door het beleidsmodel en geoptimaliseerd met behulp van kruis-entropieverlies. Een gedetailleerde gradiëntanalyse toont aan dat deze supervised formulering inherent de klassieke beleidsgradiëntupdate herstelt, terwijl de rollen van actor en critic impliciet worden gekoppeld, wat resulteert in stabielere en efficiëntere training. Bij benchmarking op uitdagende wiskundige redeneertaken presteert PACS beter dan sterke RLVR-baselines, zoals PPO en GRPO, en behaalt het superieure redeneerprestaties. Zo behaalt PACS bijvoorbeeld 59,78% bij pass@256 op AIME 2025, wat verbeteringen vertegenwoordigt van 13,32 en 14,36 punten ten opzichte van PPO en GRPO. Dit eenvoudige maar krachtige raamwerk biedt een veelbelovende weg voor LLMs na training met verifieerbare beloningen. Onze code en gegevens zijn beschikbaar als open source op https://github.com/ritzz-ai/PACS.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have empowered large language models (LLMs) to tackle challenging reasoning tasks such as mathematics and programming. RLVR leverages verifiable outcome rewards to guide policy optimization, enabling LLMs to progressively improve output quality in a grounded and reliable manner. Despite its promise, the RLVR paradigm poses significant challenges, as existing methods often suffer from sparse reward signals and unstable policy gradient updates, particularly in RL-based approaches. To address the challenges, we propose PACS, a novel RLVR framework that achieves imPlicit Actor Critic coupling via a Supervised learning framework. By treating the outcome reward as a predictable label, we reformulate the RLVR problem into a supervised learning task over a score function parameterized by the policy model and optimized using cross-entropy loss. A detailed gradient analysis shows that this supervised formulation inherently recovers the classical policy gradient update while implicitly coupling actor and critic roles, yielding more stable and efficient training. Benchmarking on challenging mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as PPO and GRPO, achieving superior reasoning performance. For instance, PACS achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32 and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a promising avenue for LLMs post-training with verifiable rewards. Our code and data are available as open source at https://github.com/ritzz-ai/PACS.
PDF254September 3, 2025