ChatPaper.aiChatPaper

Обучение с подкреплением через самодистилляцию

Reinforcement Learning via Self-Distillation

January 28, 2026
Авторы: Jonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause
cs.AI

Аннотация

Крупные языковые модели все чаще проходят последующее обучение с подкреплением в верифицируемых областях, таких как программирование и математика. Однако современные методы обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) обучаются только на основе скалярной награды за каждую попытку, что создает серьезную проблему распределения заслуг. Многие верифицируемые среды фактически предоставляют богатую текстовую обратную связь, такую ​​как ошибки времени выполнения или оценки проверяющей системы, которая объясняет, почему попытка не удалась. Мы формализуем эту задачу как обучение с подкреплением с богатой обратной связью и представляем метод оптимизации политики с самодистилляцией (SDPO), который преобразует токенизированную обратную связь в плотный обучающий сигнал без привлечения внешнего учителя или явной модели вознаграждения. SDPO рассматривает текущую модель, conditioned на обратной связи, в качестве самоучителя и дистиллирует ее информированные обратной связью предсказания следующих токенов обратно в политику. Таким образом, SDPO использует способность модели ретроспективно идентифицировать собственные ошибки в контексте. В задачах научного мышления, использования инструментов и соревновательного программирования на LiveCodeBench v6 метод SDPO демонстрирует повышение эффективности использования данных и итоговой точности по сравнению с сильными базовыми методами RLVR. Примечательно, что SDPO также превосходит базовые методы в стандартных средах RLVR, которые возвращают только скалярную обратную связь, за счет использования успешных прогонов в качестве неявной обратной связи для неудачных попыток. Наконец, применение SDPO к отдельным задачам во время тестирования ускоряет нахождение решения в сложных задачах с бинарным вознаграждением, достигая той же вероятности обнаружения, что и best-of-k сэмплирование или многошаговые диалоги, но с трехкратным сокращением числа попыток.
English
Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.
PDF52January 30, 2026