Accoppiamento Implicito Attore-Critico attraverso un Framework di Apprendimento Supervisionato per RLVR
Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
September 2, 2025
Autori: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
cs.AI
Abstract
I recenti progressi nel Reinforcement Learning con Ricompense Verificabili (RLVR) hanno potenziato i grandi modelli linguistici (LLM) per affrontare compiti di ragionamento complessi come la matematica e la programmazione. RLVR sfrutta ricompense basate su risultati verificabili per guidare l'ottimizzazione delle politiche, consentendo ai LLM di migliorare progressivamente la qualità dell'output in modo solido e affidabile. Nonostante le sue promesse, il paradigma RLVR presenta sfide significative, poiché i metodi esistenti spesso soffrono di segnali di ricompensa sparsi e aggiornamenti instabili del gradiente delle politiche, specialmente negli approcci basati su RL. Per affrontare queste sfide, proponiamo PACS, un nuovo framework RLVR che ottiene un accoppiamento imPlicito tra Attore e Critico attraverso un framework di apprendimento supervisionato. Trattando la ricompensa come un'etichetta prevedibile, riformuliamo il problema RLVR in un compito di apprendimento supervisionato su una funzione di punteggio parametrizzata dal modello di politica e ottimizzata utilizzando la perdita di entropia incrociata. Un'analisi dettagliata del gradiente mostra che questa formulazione supervisionata recupera intrinsecamente l'aggiornamento classico del gradiente delle politiche, accoppiando implicitamente i ruoli di attore e critico, ottenendo un addestramento più stabile ed efficiente. Testato su compiti di ragionamento matematico complessi, PACS supera i forti baseline RLVR, come PPO e GRPO, raggiungendo prestazioni di ragionamento superiori. Ad esempio, PACS raggiunge il 59,78% in pass@256 su AIME 2025, rappresentando miglioramenti di 13,32 e 14,36 punti rispetto a PPO e GRPO. Questo framework semplice ma potente offre una promettente strada per il post-addestramento dei LLM con ricompense verificabili. Il nostro codice e i dati sono disponibili come open source all'indirizzo https://github.com/ritzz-ai/PACS.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have
empowered large language models (LLMs) to tackle challenging reasoning tasks
such as mathematics and programming. RLVR leverages verifiable outcome rewards
to guide policy optimization, enabling LLMs to progressively improve output
quality in a grounded and reliable manner. Despite its promise, the RLVR
paradigm poses significant challenges, as existing methods often suffer from
sparse reward signals and unstable policy gradient updates, particularly in
RL-based approaches. To address the challenges, we propose PACS, a
novel RLVR framework that achieves imPlicit Actor
Critic coupling via a Supervised learning framework. By
treating the outcome reward as a predictable label, we reformulate the RLVR
problem into a supervised learning task over a score function parameterized by
the policy model and optimized using cross-entropy loss. A detailed gradient
analysis shows that this supervised formulation inherently recovers the
classical policy gradient update while implicitly coupling actor and critic
roles, yielding more stable and efficient training. Benchmarking on challenging
mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as
PPO and GRPO, achieving superior reasoning performance. For instance, PACS
achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32
and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a
promising avenue for LLMs post-training with verifiable rewards. Our code and
data are available as open source at https://github.com/ritzz-ai/PACS.