Votre modèle de langage est son propre critique : Apprentissage par renforcement avec estimation de la valeur à partir des états internes de l'acteur

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) pour les grands modèles de raisonnement repose sur l'estimation de la ligne de base afin de réduire la variance, mais les approches existantes paient un lourd tribut : PPO nécessite un critique à l'échelle du modèle de politique, tandis que GRPO requiert plusieurs déploiements par prompt pour maintenir stable sa moyenne empirique de groupe. Nous introduisons l'Optimisation de Politique par Estimation de Valeur d'État Interne (POISE), qui obtient une ligne de base à un coût négligeable en utilisant les signaux internes du modèle de politique déjà calculés lors du passage avant de la politique. Une sonde légère prédit la récompense vérifiable attendue à partir des états cachés du prompt et de la trajectoire générée, ainsi que des statistiques d'entropie des jetons, et est entraînée en ligne parallèlement à la politique. Afin de préserver la non-prise en compte du gradient malgré l'utilisation de caractéristiques conditionnées par la trajectoire, nous introduisons une construction inter-déploiements qui prédit la valeur de chaque déploiement à partir des états internes d'un déploiement indépendant. Comme POISE estime la valeur du prompt en utilisant un seul déploiement, il permet une plus grande diversité des prompts pour un budget de calcul fixe pendant l'entraînement. Cela réduit la variance du gradient pour un apprentissage plus stable et élimine également le surcoût de calcul lié aux coûts d'échantillonnage pour détecter les prompts à avantage nul. Sur Qwen3-4B et DeepSeek-R1-Distill-Qwen-1.5B, sur des benchmarks de raisonnement mathématique, POISE égale DAPO tout en nécessitant moins de calcul. De plus, son estimateur de valeur présente des performances similaires à celles d'un modèle de valeur séparé à l'échelle d'un LLM et se généralise à diverses tâches vérifiables. En exploitant les représentations internes du modèle lui-même, POISE permet une optimisation de politique plus stable et plus efficace.

English

Reinforcement learning with verifiable rewards (RLVR) for Large Reasoning Models hinges on baseline estimation for variance reduction, but existing approaches pay a heavy price: PPO requires a policy-model scale critic, while GRPO needs multiple rollouts per prompt to keep its empirical group mean stable. We introduce Policy Optimization with Internal State Value Estimation), which obtains a baseline at negligible cost by using the policy model's internal signals already computed during the policy forward pass. A lightweight probe predicts the expected verifiable reward from the hidden states of the prompt and generated trajectory, as well as token-entropy statistics, and is trained online alongside the policy. To preserve gradient unbiasedness despite using trajectory-conditioned features, we introduce a cross-rollout construction that predicts each rollout's value from an independent rollout's internal states. Because POISE estimates prompt value using only a single rollout, it enables higher prompt diversity for a fixed compute budget during training. This reduces gradient variance for more stable learning and also eliminates the compute overhead of sampling costs for detecting zero-advantage prompts. On Qwen3-4B and DeepSeek-R1-Distill-Qwen-1.5B across math reasoning benchmarks, POISE matches DAPO while requiring less compute. Moreover, its value estimator shows similar performance to a separate LLM-scale value model and generalizes to various verifiable tasks. By leveraging the model's own internal representations, POISE enables more stable and efficient policy optimization.

Votre modèle de langage est son propre critique : Apprentissage par renforcement avec estimation de la valeur à partir des états internes de l'acteur

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Résumé

Support