ChatPaper.aiChatPaper

Die Bewertung zufälliger Strategien genügt für das Reasoning von LLMs mit überprüfbaren Belohnungen

Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

September 29, 2025
papers.authors: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
cs.AI

papers.abstract

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als vielversprechendes Paradigma zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens herausgestellt. Aktuelle Methoden stützen sich hauptsächlich auf Policy-Optimierungs-Frameworks wie PPO und GRPO, die einem verallgemeinerten Policy-Iterationsprozess folgen, bei dem zwischen der Bewertung des aktuellen Policy-Werts und der Verbesserung der Policy basierend auf dieser Bewertung gewechselt wird. Obwohl effektiv, leiden sie oft unter Trainingsinstabilität und Diversitätsverlust, was komplexe heuristische Tricks und sorgfältiges Tuning erfordert. Wir beobachten, dass standardmäßiges RLVR im mathematischen Denken als ein spezialisierter, endlich-horizontiger Markov-Entscheidungsprozess mit deterministischen Zustandsübergängen, baumstrukturierter Dynamik und binären terminalen Belohnungen formalisiert werden kann. Obwohl groß angelegt, ist die zugrunde liegende Struktur einfacher als allgemeine Steuerungsszenarien, für die beliebte RL-Algorithmen (z.B. PPO) entwickelt wurden, was darauf hindeutet, dass mehrere ausgefeilte Techniken in bestehenden Methoden reduziert oder sogar weggelassen werden können. Basierend auf dieser Erkenntnis beweisen wir ein überraschendes Ergebnis: Die optimale Aktion kann aus der Q-Funktion einer festen, gleichmäßig zufälligen Policy rekonstruiert werden, wodurch der verallgemeinerte Policy-Iterationsprozess und die damit verbundenen Heuristiken umgangen werden. Wir führen Random Policy Valuation for Diverse Reasoning (ROVER) ein, um dieses Prinzip in einen praktischen und skalierbaren Algorithmus für das mathematische Denken von LLMs zu übersetzen – eine minimalistisch, aber äußerst effektive RL-Methode, die Aktionen aus einem Softmax über diese gleichmäßigen Policy-Q-Werte zieht. ROVER bewahrt die Diversität während des gesamten Trainings und ermöglicht eine kontinuierliche Exploration mehrerer gültiger Pfade. Über mehrere Basismodelle und standardisierte mathematische Denkbenchmarks hinweg zeigt ROVER eine überlegene Leistung sowohl in der Qualität (+8,2 bei pass@1, +16,8 bei pass@256) als auch in der Diversität (+17,6\%), trotz seiner radikalen Vereinfachung im Vergleich zu starken, komplizierten bestehenden Methoden.
English
RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for improving the reasoning abilities of large language models (LLMs). Current methods rely primarily on policy optimization frameworks like PPO and GRPO, which follow generalized policy iteration that alternates between evaluating the current policy's value and improving the policy based on evaluation. While effective, they often suffer from training instability and diversity collapse, requiring complex heuristic tricks and careful tuning. We observe that standard RLVR in math reasoning can be formalized as a specialized finite-horizon Markov Decision Process with deterministic state transitions, tree-structured dynamics, and binary terminal rewards. Though large in scale, the underlying structure is simpler than general-purpose control settings for which popular RL algorithms (e.g., PPO) were developed, suggesting that several sophisticated techniques in existing methods may be reduced or even omitted. Based on this insight, we prove a surprising result: the optimal action can be recovered from the Q-function of a fixed uniformly random policy, thereby bypassing the generalized policy iteration loop and its associated heuristics. We introduce Random Policy Valuation for Diverse Reasoning (ROVER) to translate this principle into a practical and scalable algorithm for LLM math reasoning, a minimalist yet highly effective RL method that samples actions from a softmax over these uniform-policy Q-values. ROVER preserves diversity throughout training, allowing sustained exploration of multiple valid pathways. Across multiple base models and standard math reasoning benchmarks, ROVER demonstrates superior performance in both quality (+8.2 on pass@1, +16.8 on pass@256) and diversity (+17.6\%), despite its radical simplification compared to strong, complicated existing methods.
PDF211September 30, 2025