Accoppiamento Implicito Attore-Critico attraverso un Framework di Apprendimento Supervisionato per RLVR

Abstract

I recenti progressi nel Reinforcement Learning con Ricompense Verificabili (RLVR) hanno potenziato i grandi modelli linguistici (LLM) per affrontare compiti di ragionamento complessi come la matematica e la programmazione. RLVR sfrutta ricompense basate su risultati verificabili per guidare l'ottimizzazione delle politiche, consentendo ai LLM di migliorare progressivamente la qualità dell'output in modo solido e affidabile. Nonostante le sue promesse, il paradigma RLVR presenta sfide significative, poiché i metodi esistenti spesso soffrono di segnali di ricompensa sparsi e aggiornamenti instabili del gradiente delle politiche, specialmente negli approcci basati su RL. Per affrontare queste sfide, proponiamo PACS, un nuovo framework RLVR che ottiene un accoppiamento imPlicito tra Attore e Critico attraverso un framework di apprendimento supervisionato. Trattando la ricompensa come un'etichetta prevedibile, riformuliamo il problema RLVR in un compito di apprendimento supervisionato su una funzione di punteggio parametrizzata dal modello di politica e ottimizzata utilizzando la perdita di entropia incrociata. Un'analisi dettagliata del gradiente mostra che questa formulazione supervisionata recupera intrinsecamente l'aggiornamento classico del gradiente delle politiche, accoppiando implicitamente i ruoli di attore e critico, ottenendo un addestramento più stabile ed efficiente. Testato su compiti di ragionamento matematico complessi, PACS supera i forti baseline RLVR, come PPO e GRPO, raggiungendo prestazioni di ragionamento superiori. Ad esempio, PACS raggiunge il 59,78% in pass@256 su AIME 2025, rappresentando miglioramenti di 13,32 e 14,36 punti rispetto a PPO e GRPO. Questo framework semplice ma potente offre una promettente strada per il post-addestramento dei LLM con ricompense verificabili. Il nostro codice e i dati sono disponibili come open source all'indirizzo https://github.com/ritzz-ai/PACS.

English

Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have empowered large language models (LLMs) to tackle challenging reasoning tasks such as mathematics and programming. RLVR leverages verifiable outcome rewards to guide policy optimization, enabling LLMs to progressively improve output quality in a grounded and reliable manner. Despite its promise, the RLVR paradigm poses significant challenges, as existing methods often suffer from sparse reward signals and unstable policy gradient updates, particularly in RL-based approaches. To address the challenges, we propose PACS, a novel RLVR framework that achieves imPlicit Actor Critic coupling via a Supervised learning framework. By treating the outcome reward as a predictable label, we reformulate the RLVR problem into a supervised learning task over a score function parameterized by the policy model and optimized using cross-entropy loss. A detailed gradient analysis shows that this supervised formulation inherently recovers the classical policy gradient update while implicitly coupling actor and critic roles, yielding more stable and efficient training. Benchmarking on challenging mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as PPO and GRPO, achieving superior reasoning performance. For instance, PACS achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32 and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a promising avenue for LLMs post-training with verifiable rewards. Our code and data are available as open source at https://github.com/ritzz-ai/PACS.

Accoppiamento Implicito Attore-Critico attraverso un Framework di Apprendimento Supervisionato per RLVR

Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

Abstract

Support