Apprentissage à partir de feedback linguistique via la distillation variationnelle de politique

Résumé

L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) souffre de signaux de résultat épars, créant des goulots d'étranglement d'exploration sévères sur des tâches de raisonnement complexes. Les méthodes récentes d'auto-distillation sur politique tentent d'y remédier en utilisant un feedback linguistique pour générer une supervision dense au niveau des tokens. Cependant, ces approches reposent sur un enseignant fixe et passif pour interpréter le feedback. À mesure que la politique de l'étudiant s'améliore, les capacités d'évaluation zero-shot de l'enseignant plafonnent, arrêtant ainsi tout apprentissage ultérieur. Pour surmonter cela, nous proposons la Distillation Variationnelle de Politique (VPD), un cadre qui formalise l'apprentissage à partir de feedback linguistique comme un problème d'Espérance-Maximisation (EM) variationnelle. VPD fait co-évoluer les deux politiques : dans l'étape E, l'enseignant est activement affiné sur les trajectoires observées via une mise à jour adaptative de région de confiance, traduisant le feedback textuel en une distribution cible de tokens dynamiquement améliorée. Dans l'étape M, l'étudiant internalise cette guidance distributionnelle dense sur ses propres rollouts sur politique. En améliorant continuellement la capacité de l'enseignant à extraire des signaux exploitables de la critique textuelle, VPD surmonte les limites de la distillation passive. Évalué sur diverses sources de feedback diagnostique pour des tâches de raisonnement scientifique et de génération de code, VPD surpasse systématiquement à la fois le RLVR standard et les bases de référence d'auto-distillation existantes. Enfin, en soumettant notre cadre à des tests de résistance sur le raisonnement mathématique rigide et les régimes de démarrage à froid, nous éclairons les limites fondamentales de l'auto-distillation guidée par feedback par rapport au RL purement piloté par l'environnement.

English

Reinforcement learning from verifiable rewards (RLVR) suffers from sparse outcome signals, creating severe exploration bottlenecks on complex reasoning tasks. Recent on-policy self-distillation methods attempt to address this by utilizing language feedback to generate dense, token-level supervision. However, these approaches rely on a fixed, passive teacher to interpret the feedback. As the student policy improves, the teacher's zero-shot assessment capabilities plateau, ultimately halting further learning. To overcome this, we propose Variational Policy Distillation (VPD), a framework that formalizes learning from language feedback as a Variational Expectation-Maximization (EM) problem. VPD co-evolves both policies: in the E-step, the teacher is actively refined on trajectory outcomes via an adaptive trust-region update, translating textual feedback into a dynamically improved target token distribution. In the M-step, the student internalizes this dense distributional guidance on its own on-policy rollouts. By continuously improving the teacher's ability to extract actionable signals from textual critique, VPD overcomes the limitations of passive distillation. Evaluated across diverse sources of diagnostic feedback on scientific reasoning and code generation tasks, VPD consistently outperforms both standard RLVR and existing self-distillation baselines. Finally, by stress-testing our framework on rigid mathematical reasoning and cold-start regimes, we illuminate the fundamental bounds of feedback-driven self-distillation compared to pure environment-driven RL.