Обучение с подкреплением на основе богатой обратной связи с дистрибуционным DAgger

Аннотация

Модели рассуждений быстро развиваются, но доминирующая парадигма обучения с подкреплением на основе проверяемых вознаграждений (RLVR) остается удивительно узкой: генерируется множество ответов, и каждый из них вознаграждается одним битом, указывающим, правилен ли окончательный ответ. Однако многие сценарии предоставляют богатую обратную связь, включая трассировки выполнения, выводы инструментов, исправления экспертов и самооценки модели. Мы изучаем, как использовать такую обратную связь с помощью дистрибутивного варианта классического алгоритма имитационного обучения DAgger, где обучающийся имеет локальный доступ к распределению эксперта по состояниям, посещаемым текущей политикой. Это дает простую целевую функцию прямой кросс-энтропии, которая допускает эксперта в виде "черного ящика" и чей градиент на уровне последовательности осуществляет детальное распределение кредита путем распространения будущего несоответствия между экспертом и учеником на более ранние решения. Мы показываем, что предыдущие методы RL с целями самодистилляции на основе обратной KL-дивергенции или дивергенции Дженсена-Шеннона не гарантируют монотонное улучшение политики: даже если у эксперта более высокое вознаграждение, их обновления могут увеличивать вероятность худших действий. В отличие от этого, мы показываем, что прямая кросс-энтропия допускает монотонное улучшение политики и имеет гарантии на сожаление. Кроме того, мы показываем, что наша целевая функция оптимизирует нижнюю границу взвешенной учителем вероятности успеха, что приводит к улучшению показателя Pass@N. Эмпирически наш подход DistIL превосходит RLVR и RL с базовыми методами самодистилляции в различных областях: научные рассуждения, программирование и решение сложных математических задач.

English

Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.