Обучение на основе языковой обратной связи с помощью вариационной дистилляции политики

Аннотация

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) страдает от разреженных сигналов результата, что создает серьезные узкие места в исследовании для сложных задач рассуждения. Недавние методы самодистилляции на политике пытаются решить эту проблему, используя языковую обратную связь для генерации плотного супервизорного управления на уровне токенов. Однако эти подходы полагаются на фиксированного, пассивного учителя для интерпретации обратной связи. По мере улучшения политики ученика возможности учителя по нулевой оценке достигают плато, что в конечном итоге останавливает дальнейшее обучение. Чтобы преодолеть это, мы предлагаем Вариационную Дистилляцию Политики (VPD) — фреймворк, который формализует обучение на основе языковой обратной связи как задачу вариационного EM-алгоритма (Expectation-Maximization). VPD совместно развивает обе политики: на E-шаге учитель активно уточняется на результатах траекторий с помощью адаптивного обновления с доверительной областью, преобразуя текстовую обратную связь в динамически улучшаемое целевое распределение токенов. На M-шаге ученик интернализует это плотное распределенное руководство на своих собственных развертываниях на политике. Постоянно улучшая способность учителя извлекать действенные сигналы из текстовой критики, VPD преодолевает ограничения пассивной дистилляции. При оценке на различных источниках диагностической обратной связи для задач научного рассуждения и генерации кода VPD последовательно превосходит как стандартный RLVR, так и существующие базовые методы самодистилляции. Наконец, путем стресс-тестирования нашего фреймворка на строгих математических рассуждениях и в режимах холодного старта мы освещаем фундаментальные границы самодистилляции на основе обратной связи по сравнению с чистым обучением с подкреплением, управляемым средой.

English

Reinforcement learning from verifiable rewards (RLVR) suffers from sparse outcome signals, creating severe exploration bottlenecks on complex reasoning tasks. Recent on-policy self-distillation methods attempt to address this by utilizing language feedback to generate dense, token-level supervision. However, these approaches rely on a fixed, passive teacher to interpret the feedback. As the student policy improves, the teacher's zero-shot assessment capabilities plateau, ultimately halting further learning. To overcome this, we propose Variational Policy Distillation (VPD), a framework that formalizes learning from language feedback as a Variational Expectation-Maximization (EM) problem. VPD co-evolves both policies: in the E-step, the teacher is actively refined on trajectory outcomes via an adaptive trust-region update, translating textual feedback into a dynamically improved target token distribution. In the M-step, the student internalizes this dense distributional guidance on its own on-policy rollouts. By continuously improving the teacher's ability to extract actionable signals from textual critique, VPD overcomes the limitations of passive distillation. Evaluated across diverse sources of diagnostic feedback on scientific reasoning and code generation tasks, VPD consistently outperforms both standard RLVR and existing self-distillation baselines. Finally, by stress-testing our framework on rigid mathematical reasoning and cold-start regimes, we illuminate the fundamental bounds of feedback-driven self-distillation compared to pure environment-driven RL.