Ваша языковая модель — сама себе критик: обучение с подкреплением с оценкой ценности на основе внутренних состояний актора

Аннотация

Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) для крупных моделей рассуждений (Large Reasoning Models) опирается на оценку базового уровня для снижения дисперсии, но существующие подходы несут значительные издержки: PPO требует критик масштаба самой модели политики, а GRPO — множественных генераций на один промпт для поддержания стабильности эмпирического среднего по группе. Мы предлагаем метод «Оптимизация политики с оценкой внутреннего состояния» (Policy Optimization with Internal State Value Estimation, POISE), который получает базовый уровень с минимальными затратами, используя внутренние сигналы самой модели политики, уже вычисленные в ходе прямого прохода политики. Лёгкий зонд предсказывает ожидаемое верифицируемое вознаграждение по скрытым состояниям промпта и сгенерированной траектории, а также по статистике токен-энтропии, и обучается совместно с политикой в онлайн-режиме. Для сохранения несмещённости градиентов, несмотря на использование признаков, обусловленных траекторией, мы вводим конструкцию с перекрёстными генерациями, при которой стоимость каждой генерации предсказывается по внутренним состояниям независимой генерации. Поскольку POISE оценивает стоимость промпта на основе единственной генерации, это позволяет обеспечить более высокое разнообразие промптов при фиксированном бюджете вычислений во время обучения. Это снижает дисперсию градиента для более стабильного обучения, а также устраняет вычислительные издержки, связанные с затратами на выборку для обнаружения промптов с нулевым преимуществом. На моделях Qwen3-4B и DeepSeek-R1-Distill-Qwen-1.5B в бенчмарках математического рассуждения POISE достигает результатов, сравнимых с DAPO, при меньших вычислительных затратах. Более того, его оценщик стоимости демонстрирует производительность, аналогичную отдельной модели стоимости масштаба LLM, и обобщается на различные верифицируемые задачи. Используя собственные внутренние представления модели, POISE обеспечивает более стабильную и эффективную оптимизацию политики.

English

Reinforcement learning with verifiable rewards (RLVR) for Large Reasoning Models hinges on baseline estimation for variance reduction, but existing approaches pay a heavy price: PPO requires a policy-model scale critic, while GRPO needs multiple rollouts per prompt to keep its empirical group mean stable. We introduce Policy Optimization with Internal State Value Estimation), which obtains a baseline at negligible cost by using the policy model's internal signals already computed during the policy forward pass. A lightweight probe predicts the expected verifiable reward from the hidden states of the prompt and generated trajectory, as well as token-entropy statistics, and is trained online alongside the policy. To preserve gradient unbiasedness despite using trajectory-conditioned features, we introduce a cross-rollout construction that predicts each rollout's value from an independent rollout's internal states. Because POISE estimates prompt value using only a single rollout, it enables higher prompt diversity for a fixed compute budget during training. This reduces gradient variance for more stable learning and also eliminates the compute overhead of sampling costs for detecting zero-advantage prompts. On Qwen3-4B and DeepSeek-R1-Distill-Qwen-1.5B across math reasoning benchmarks, POISE matches DAPO while requiring less compute. Moreover, its value estimator shows similar performance to a separate LLM-scale value model and generalizes to various verifiable tasks. By leveraging the model's own internal representations, POISE enables more stable and efficient policy optimization.

Ваша языковая модель — сама себе критик: обучение с подкреплением с оценкой ценности на основе внутренних состояний актора

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Аннотация

Support