Aprendizaje a partir de retroalimentación lingüística mediante destilación variacional de políticas

Resumen

El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) sufre señales de resultado dispersas, lo que genera graves cuellos de botella de exploración en tareas de razonamiento complejas. Métodos recientes de autodestilación en política intentan abordar esto utilizando retroalimentación lingüística para generar supervisión densa a nivel de token. Sin embargo, estos enfoques dependen de un profesor fijo y pasivo para interpretar la retroalimentación. A medida que la política del estudiante mejora, la capacidad de evaluación de disparo cero del profesor se estabiliza, deteniendo finalmente el aprendizaje posterior. Para superar esto, proponemos la Destilación Variacional de Políticas (VPD), un marco que formaliza el aprendizaje a partir de retroalimentación lingüística como un problema de Maximización de Expectativas Variacional (EM). VPD co-evoluciona ambas políticas: en el paso E, el profesor se refina activamente en los resultados de la trayectoria mediante una actualización adaptativa de región de confianza, traduciendo la retroalimentación textual en una distribución objetivo de tokens mejorada dinámicamente. En el paso M, el estudiante internaliza esta guía distribucional densa en sus propios despliegues en política. Al mejorar continuamente la capacidad del profesor para extraer señales accionables de la crítica textual, VPD supera las limitaciones de la destilación pasiva. Evaluado en diversas fuentes de retroalimentación diagnóstica en tareas de razonamiento científico y generación de código, VPD supera consistentemente tanto al RLVR estándar como a las líneas base existentes de autodestilación. Finalmente, al someter nuestro marco a pruebas de estrés en razonamiento matemático rígido y regímenes de arranque en frío, iluminamos los límites fundamentales de la autodestilación impulsada por retroalimentación en comparación con el RL puramente impulsado por el entorno.

English

Reinforcement learning from verifiable rewards (RLVR) suffers from sparse outcome signals, creating severe exploration bottlenecks on complex reasoning tasks. Recent on-policy self-distillation methods attempt to address this by utilizing language feedback to generate dense, token-level supervision. However, these approaches rely on a fixed, passive teacher to interpret the feedback. As the student policy improves, the teacher's zero-shot assessment capabilities plateau, ultimately halting further learning. To overcome this, we propose Variational Policy Distillation (VPD), a framework that formalizes learning from language feedback as a Variational Expectation-Maximization (EM) problem. VPD co-evolves both policies: in the E-step, the teacher is actively refined on trajectory outcomes via an adaptive trust-region update, translating textual feedback into a dynamically improved target token distribution. In the M-step, the student internalizes this dense distributional guidance on its own on-policy rollouts. By continuously improving the teacher's ability to extract actionable signals from textual critique, VPD overcomes the limitations of passive distillation. Evaluated across diverse sources of diagnostic feedback on scientific reasoning and code generation tasks, VPD consistently outperforms both standard RLVR and existing self-distillation baselines. Finally, by stress-testing our framework on rigid mathematical reasoning and cold-start regimes, we illuminate the fundamental bounds of feedback-driven self-distillation compared to pure environment-driven RL.