Tu modelo de lenguaje es su propio crítico: Aprendizaje por refuerzo con estimación de valor a partir de los estados internos del actor

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) para modelos de razonamiento a gran escala depende de la estimación de la línea base para la reducción de varianza, pero los enfoques existentes tienen un alto costo: PPO requiere un crítico a escala del modelo de política, mientras que GRPO necesita múltiples muestras por aviso para mantener estable su media grupal empírica. Presentamos POISE (Optimización de Políticas con Estimación del Valor del Estado Interno), que obtiene una línea base a un costo insignificante al utilizar las señales internas del modelo de política ya calculadas durante el pase adelantado de la política. Una sonda ligera predice la recompensa verificable esperada a partir de los estados ocultos del aviso y la trayectoria generada, así como estadísticas de entropía de tokens, y se entrena en línea junto con la política. Para preservar la imparcialidad del gradiente a pesar de usar características condicionadas a la trayectoria, introducimos una construcción de muestras cruzadas que predice el valor de cada muestra a partir de los estados internos de una muestra independiente. Debido a que POISE estima el valor del aviso utilizando solo una muestra, permite una mayor diversidad de avisos para un presupuesto computacional fijo durante el entrenamiento. Esto reduce la varianza del gradiente para un aprendizaje más estable y también elimina la sobrecarga computacional de los costos de muestreo para detectar avisos con ventaja cero. En Qwen3-4B y DeepSeek-R1-Distill-Qwen-1.5B en varios puntos de referencia de razonamiento matemático, POISE iguala el rendimiento de DAPO mientras requiere menos cómputo. Además, su estimador de valor muestra un rendimiento similar al de un modelo de valor separado a escala de LLM y se generaliza a diversas tareas verificables. Al aprovechar las representaciones internas del propio modelo, POISE permite una optimización de políticas más estable y eficiente.

English

Reinforcement learning with verifiable rewards (RLVR) for Large Reasoning Models hinges on baseline estimation for variance reduction, but existing approaches pay a heavy price: PPO requires a policy-model scale critic, while GRPO needs multiple rollouts per prompt to keep its empirical group mean stable. We introduce Policy Optimization with Internal State Value Estimation), which obtains a baseline at negligible cost by using the policy model's internal signals already computed during the policy forward pass. A lightweight probe predicts the expected verifiable reward from the hidden states of the prompt and generated trajectory, as well as token-entropy statistics, and is trained online alongside the policy. To preserve gradient unbiasedness despite using trajectory-conditioned features, we introduce a cross-rollout construction that predicts each rollout's value from an independent rollout's internal states. Because POISE estimates prompt value using only a single rollout, it enables higher prompt diversity for a fixed compute budget during training. This reduces gradient variance for more stable learning and also eliminates the compute overhead of sampling costs for detecting zero-advantage prompts. On Qwen3-4B and DeepSeek-R1-Distill-Qwen-1.5B across math reasoning benchmarks, POISE matches DAPO while requiring less compute. Moreover, its value estimator shows similar performance to a separate LLM-scale value model and generalizes to various verifiable tasks. By leveraging the model's own internal representations, POISE enables more stable and efficient policy optimization.

Tu modelo de lenguaje es su propio crítico: Aprendizaje por refuerzo con estimación de valor a partir de los estados internos del actor

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Resumen

Support