Ihr Sprachmodell ist sein eigener Kritiker: Bestärkendes Lernen mit Wertschätzung aus den internen Zuständen des Akteurs

Zusammenfassung

Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) für große Reasoning-Modelle beruht auf einer Basisschätzung zur Varianzreduktion, aber bestehende Ansätze zahlen einen hohen Preis: PPO benötigt einen auf der Policy-Ebene skalierenden Kritiker, während GRPO mehrere Rollouts pro Prompt erfordert, um seinen empirischen Gruppenmittelwert stabil zu halten. Wir stellen die Policy-Optimierung mit interner Zustandsbewertung (POISE) vor, die eine Baseline zu vernachlässigbaren Kosten erhält, indem sie die bereits während des Policy-Forward-Durchlaufs berechneten internen Signale des Policy-Modells nutzt. Ein leichtgewichtiger Prädiktor sagt die erwartete verifizierbare Belohnung aus den verborgenen Zuständen des Prompts und der erzeugten Trajektorie sowie Token-Entropie-Statistiken voraus und wird online zusammen mit der Policy trainiert. Um die Gradienten-Unverzerrtheit trotz der Verwendung trajektorienbedingter Merkmale zu bewahren, führen wir eine Cross-Rollout-Konstruktion ein, die den Wert jedes Rollouts aus den internen Zuständen eines unabhängigen Rollouts vorhersagt. Da POISE den Prompt-Wert nur mit einem einzigen Rollout schätzt, ermöglicht es bei gegebenem Rechenbudget während des Trainings eine höhere Prompt-Diversität. Dies reduziert die Gradientenvarianz für stabileres Lernen und eliminiert auch den Rechenaufwand der Stichprobenkosten für die Erkennung von Null-Vorteil-Prompts. Bei Qwen3-4B und DeepSeek-R1-Distill-Qwen-1.5B in Mathe-Reasoning-Benchmarks erreicht POISE die Leistung von DAPO bei geringerem Rechenaufwand. Darüber hinaus zeigt sein Wertschätzer eine ähnliche Leistung wie ein separates LLM-skaliertes Wertmodell und generalisiert auf verschiedene verifizierbare Aufgaben. Durch die Nutzung der eigenen internen Repräsentationen des Modells ermöglicht POISE eine stabilere und effizientere Policy-Optimierung.

English

Reinforcement learning with verifiable rewards (RLVR) for Large Reasoning Models hinges on baseline estimation for variance reduction, but existing approaches pay a heavy price: PPO requires a policy-model scale critic, while GRPO needs multiple rollouts per prompt to keep its empirical group mean stable. We introduce Policy Optimization with Internal State Value Estimation), which obtains a baseline at negligible cost by using the policy model's internal signals already computed during the policy forward pass. A lightweight probe predicts the expected verifiable reward from the hidden states of the prompt and generated trajectory, as well as token-entropy statistics, and is trained online alongside the policy. To preserve gradient unbiasedness despite using trajectory-conditioned features, we introduce a cross-rollout construction that predicts each rollout's value from an independent rollout's internal states. Because POISE estimates prompt value using only a single rollout, it enables higher prompt diversity for a fixed compute budget during training. This reduces gradient variance for more stable learning and also eliminates the compute overhead of sampling costs for detecting zero-advantage prompts. On Qwen3-4B and DeepSeek-R1-Distill-Qwen-1.5B across math reasoning benchmarks, POISE matches DAPO while requiring less compute. Moreover, its value estimator shows similar performance to a separate LLM-scale value model and generalizes to various verifiable tasks. By leveraging the model's own internal representations, POISE enables more stable and efficient policy optimization.

Ihr Sprachmodell ist sein eigener Kritiker: Bestärkendes Lernen mit Wertschätzung aus den internen Zuständen des Akteurs

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Zusammenfassung

Support