ChatPaper.aiChatPaper

Implizite Akteur-Kritiker-Kopplung durch ein überwachtes Lernframework für RLVR

Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

September 2, 2025
papers.authors: Jiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang
cs.AI

papers.abstract

Jüngste Fortschritte im Bereich des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) haben große Sprachmodelle (LLMs) in die Lage versetzt, anspruchsvolle Aufgaben wie Mathematik und Programmierung zu bewältigen. RLVR nutzt verifizierbare Ergebnisbelohnungen, um die Politikoptimierung zu steuern, wodurch LLMs in der Lage sind, die Qualität ihrer Ausgaben auf fundierte und zuverlässige Weise kontinuierlich zu verbessern. Trotz seines Potenzials stellt das RLVR-Paradigma erhebliche Herausforderungen dar, da bestehende Methoden oft unter spärlichen Belohnungssignalen und instabilen Politikgradienten-Updates leiden, insbesondere bei RL-basierten Ansätzen. Um diese Herausforderungen zu bewältigen, schlagen wir PACS vor, ein neuartiges RLVR-Framework, das eine implizite Kopplung von Actor und Critic über ein überwachtes Lernframework erreicht. Indem wir die Ergebnisbelohnung als vorhersagbares Label behandeln, reformulieren wir das RLVR-Problem in eine überwachte Lernaufgabe über eine durch das Politikmodell parametrisierte Bewertungsfunktion, die mit Hilfe des Kreuzentropieverlusts optimiert wird. Eine detaillierte Gradientenanalyse zeigt, dass diese überwachte Formulierung den klassischen Politikgradienten-Update inhärent wiederherstellt, während sie gleichzeitig die Rollen von Actor und Critic implizit koppelt, was zu stabilerem und effizienterem Training führt. Bei der Bewertung anspruchsvoller mathematischer Aufgaben übertrifft PACS starke RLVR-Baselines wie PPO und GRPO und erzielt eine überlegene Leistung in der Argumentation. Beispielsweise erreicht PACS 59,78 % bei pass@256 auf AIME 2025, was Verbesserungen von 13,32 und 14,36 Punkten gegenüber PPO und GRPO darstellt. Dieses einfache, aber leistungsstarke Framework bietet einen vielversprechenden Ansatz für das Post-Training von LLMs mit verifizierbaren Belohnungen. Unser Code und unsere Daten sind als Open Source unter https://github.com/ritzz-ai/PACS verfügbar.
English
Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have empowered large language models (LLMs) to tackle challenging reasoning tasks such as mathematics and programming. RLVR leverages verifiable outcome rewards to guide policy optimization, enabling LLMs to progressively improve output quality in a grounded and reliable manner. Despite its promise, the RLVR paradigm poses significant challenges, as existing methods often suffer from sparse reward signals and unstable policy gradient updates, particularly in RL-based approaches. To address the challenges, we propose PACS, a novel RLVR framework that achieves imPlicit Actor Critic coupling via a Supervised learning framework. By treating the outcome reward as a predictable label, we reformulate the RLVR problem into a supervised learning task over a score function parameterized by the policy model and optimized using cross-entropy loss. A detailed gradient analysis shows that this supervised formulation inherently recovers the classical policy gradient update while implicitly coupling actor and critic roles, yielding more stable and efficient training. Benchmarking on challenging mathematical reasoning tasks, PACS outperforms strong RLVR baselines, such as PPO and GRPO, achieving superior reasoning performance. For instance, PACS achieves 59.78\% at pass@256 on AIME 2025, representing improvements of 13.32 and 14.36 points over PPO and GRPO. This simple yet powerful framework offers a promising avenue for LLMs post-training with verifiable rewards. Our code and data are available as open source at https://github.com/ritzz-ai/PACS.
PDF222September 3, 2025