ChatPaper.aiChatPaper

Оценка случайной политики достаточна для рассуждений в крупных языковых моделях с верифицируемыми вознаграждениями

Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

September 29, 2025
Авторы: Haoran He, Yuxiao Ye, Qingpeng Cai, Chen Hu, Binxing Jiao, Daxin Jiang, Ling Pan
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) стало перспективной парадигмой для улучшения способностей крупных языковых моделей (LLM) к рассуждению. Современные методы в основном опираются на фреймворки оптимизации политик, такие как PPO и GRPO, которые следуют обобщённой итерации политик, чередуя оценку ценности текущей политики и её улучшение на основе этой оценки. Хотя эти методы эффективны, они часто страдают от нестабильности обучения и коллапса разнообразия, требуя сложных эвристических приёмов и тщательной настройки. Мы отмечаем, что стандартный RLVR в математических рассуждениях может быть формализован как специализированный марковский процесс принятия решений с конечным горизонтом, детерминированными переходами состояний, древовидной динамикой и бинарными терминальными наградами. Несмотря на большой масштаб, базовая структура проще, чем в общих задачах управления, для которых были разработаны популярные алгоритмы RL (например, PPO), что позволяет предположить, что многие сложные техники в существующих методах могут быть упрощены или даже исключены. Основываясь на этом наблюдении, мы доказываем удивительный результат: оптимальное действие может быть восстановлено из Q-функции фиксированной равномерно случайной политики, что позволяет обойти цикл обобщённой итерации политик и связанные с ним эвристики. Мы представляем метод Random Policy Valuation for Diverse Reasoning (ROVER), который переводит этот принцип в практический и масштабируемый алгоритм для математических рассуждений LLM — минималистичный, но высокоэффективный метод RL, который выбирает действия через softmax над Q-значениями равномерной политики. ROVER сохраняет разнообразие на протяжении всего обучения, обеспечивая устойчивое исследование множества допустимых путей. На различных базовых моделях и стандартных бенчмарках математических рассуждений ROVER демонстрирует превосходную производительность как по качеству (+8,2 на pass@1, +16,8 на pass@256), так и по разнообразию (+17,6%), несмотря на радикальное упрощение по сравнению с существующими сложными методами.
English
RL with Verifiable Rewards (RLVR) has emerged as a promising paradigm for improving the reasoning abilities of large language models (LLMs). Current methods rely primarily on policy optimization frameworks like PPO and GRPO, which follow generalized policy iteration that alternates between evaluating the current policy's value and improving the policy based on evaluation. While effective, they often suffer from training instability and diversity collapse, requiring complex heuristic tricks and careful tuning. We observe that standard RLVR in math reasoning can be formalized as a specialized finite-horizon Markov Decision Process with deterministic state transitions, tree-structured dynamics, and binary terminal rewards. Though large in scale, the underlying structure is simpler than general-purpose control settings for which popular RL algorithms (e.g., PPO) were developed, suggesting that several sophisticated techniques in existing methods may be reduced or even omitted. Based on this insight, we prove a surprising result: the optimal action can be recovered from the Q-function of a fixed uniformly random policy, thereby bypassing the generalized policy iteration loop and its associated heuristics. We introduce Random Policy Valuation for Diverse Reasoning (ROVER) to translate this principle into a practical and scalable algorithm for LLM math reasoning, a minimalist yet highly effective RL method that samples actions from a softmax over these uniform-policy Q-values. ROVER preserves diversity throughout training, allowing sustained exploration of multiple valid pathways. Across multiple base models and standard math reasoning benchmarks, ROVER demonstrates superior performance in both quality (+8.2 on pass@1, +16.8 on pass@256) and diversity (+17.6\%), despite its radical simplification compared to strong, complicated existing methods.
PDF211September 30, 2025