Aprendizado a partir de Feedback de Linguagem via Destilação de Política Variacional

Resumo

O aprendizado por reforço a partir de recompensas verificáveis (RLVR) sofre com sinais de resultado esparsos, criando sérios gargalos de exploração em tarefas complexas de raciocínio. Métodos recentes de autodestilação on-policy tentam resolver esse problema utilizando feedback linguístico para gerar supervisão densa em nível de token. No entanto, essas abordagens dependem de um professor fixo e passivo para interpretar o feedback. À medida que a política do aluno melhora, as capacidades de avaliação zero-shot do professor se estabilizam, interrompendo o aprendizado subsequente. Para superar essa limitação, propomos a Destilação Variacional de Políticas (VPD), uma estrutura que formaliza o aprendizado a partir de feedback linguístico como um problema de Expectation-Maximization (EM) Variacional. A VPD coevolui ambas as políticas: na etapa E, o professor é ativamente refinado com base nos resultados das trajetórias por meio de uma atualização adaptativa de região de confiança, traduzindo o feedback textual em uma distribuição alvo de tokens dinamicamente melhorada. Na etapa M, o aluno internaliza essa orientação distribucional densa em seus próprios rollouts on-policy. Ao melhorar continuamente a capacidade do professor de extrair sinais acionáveis a partir de críticas textuais, a VPD supera as limitações da destilação passiva. Avaliada em diversas fontes de feedback diagnóstico em tarefas de raciocínio científico e geração de código, a VPD consistentemente supera tanto o RLVR padrão quanto as linhas de base existentes de autodestilação. Finalmente, ao submeter nossa estrutura a testes de estresse em raciocínio matemático rígido e regimes de inicialização a frio, elucidamos os limites fundamentais da autodestilação orientada por feedback em comparação com o RL puramente orientado pelo ambiente.

English

Reinforcement learning from verifiable rewards (RLVR) suffers from sparse outcome signals, creating severe exploration bottlenecks on complex reasoning tasks. Recent on-policy self-distillation methods attempt to address this by utilizing language feedback to generate dense, token-level supervision. However, these approaches rely on a fixed, passive teacher to interpret the feedback. As the student policy improves, the teacher's zero-shot assessment capabilities plateau, ultimately halting further learning. To overcome this, we propose Variational Policy Distillation (VPD), a framework that formalizes learning from language feedback as a Variational Expectation-Maximization (EM) problem. VPD co-evolves both policies: in the E-step, the teacher is actively refined on trajectory outcomes via an adaptive trust-region update, translating textual feedback into a dynamically improved target token distribution. In the M-step, the student internalizes this dense distributional guidance on its own on-policy rollouts. By continuously improving the teacher's ability to extract actionable signals from textual critique, VPD overcomes the limitations of passive distillation. Evaluated across diverse sources of diagnostic feedback on scientific reasoning and code generation tasks, VPD consistently outperforms both standard RLVR and existing self-distillation baselines. Finally, by stress-testing our framework on rigid mathematical reasoning and cold-start regimes, we illuminate the fundamental bounds of feedback-driven self-distillation compared to pure environment-driven RL.