Само-дистилляция Ноль: Самокоррекция превращает бинарные вознаграждения в плотное обучение с учителем

Аннотация

Современные методы пост-обучения в верифицируемых условиях делятся на две категории. Обучение с подкреплением (RLVR) опирается на бинарные вознаграждения, которые широко применимы и мощны, но обеспечивают лишь разреженный контроль в процессе обучения. Дистилляция обеспечивает плотный покомпонентный контроль, обычно получаемый от внешнего учителя или с использованием высококачественных демонстраций. Сбор такого контроля может быть дорогостоящим или недоступным. Мы предлагаем Self-Distillation Zero (SD-Zero) — метод, который существенно более эффективен по выборкам обучения, чем RL, и не требует внешнего учителя или высококачественных демонстраций. SD-Zero обучает единую модель выполнять две роли: Генератор, который создает исходный ответ, и Ревизор, который, учитывая этот ответ и его бинарное вознаграждение, формирует улучшенный ответ. Затем мы выполняем самодистилляцию на политике, чтобы дистиллировать ревизора в генератор, используя покомпонентные распределения ревизора, обусловленные ответом генератора и его вознаграждением, в качестве контроля. По сути, SD-Zero обучает модель преобразовывать бинарные вознаграждения в плотный покомпонентный самоконтроль. На бенчмарках математических и программных рассуждений с моделями Qwen3-4B-Instruct и Olmo-3-7B-Instruct SD-Zero повышает производительность как минимум на 10% по сравнению с базовыми моделями и превосходит сильные базовые методы, включая Rejection Fine-Tuning (RFT), GRPO и Self-Distillation Fine-Tuning (SDFT), при одинаковом наборе вопросов и бюджете обучающих выборок. Обширные абляционные исследования демонстрируют две новые характеристики нашего алгоритма: (а) покомпонентную самолокализацию, при которой ревизор может идентифицировать ключевые компоненты, требующие исправления в ответе генератора на основе вознаграждения, и (б) итеративное саморазвитие, при котором улучшающаяся способность исправлять ответы может быть дистиллирована обратно в производительность генерации при регулярной синхронизации учителя.

English

Current post-training methods in verifiable settings fall into two categories. Reinforcement learning (RLVR) relies on binary rewards, which are broadly applicable and powerful, but provide only sparse supervision during training. Distillation provides dense token-level supervision, typically obtained from an external teacher or using high-quality demonstrations. Collecting such supervision can be costly or unavailable. We propose Self-Distillation Zero (SD-Zero), a method that is substantially more training sample-efficient than RL and does not require an external teacher or high-quality demonstrations. SD-Zero trains a single model to play two roles: a Generator, which produces an initial response, and a Reviser, which conditions on that response and its binary reward to produce an improved response. We then perform on-policy self-distillation to distill the reviser into the generator, using the reviser's token distributions conditioned on the generator's response and its reward as supervision. In effect, SD-Zero trains the model to transform binary rewards into dense token-level self-supervision. On math and code reasoning benchmarks with Qwen3-4B-Instruct and Olmo-3-7B-Instruct, SD-Zero improves performance by at least 10% over the base models and outperforms strong baselines, including Rejection Fine-Tuning (RFT), GRPO, and Self-Distillation Fine-Tuning (SDFT), under the same question set and training sample budget. Extensive ablation studies show two novel characteristics of our proposed algorithm: (a) token-level self-localization, where the reviser can identify the key tokens that need to be revised in the generator's response based on reward, and (b) iterative self-evolution, where the improving ability to revise answers can be distilled back into generation performance with regular teacher synchronization.

Само-дистилляция Ноль: Самокоррекция превращает бинарные вознаграждения в плотное обучение с учителем

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Аннотация

Support