Меньше значит больше: ранняя остановка развертывания для дистилляции по политике

Аннотация

Недавно политико-зависимая дистилляция (on-policy distillation) стала многообещающей альтернативой стандартной имитации на уровне последовательностей, обучая студента путем оценки его собственных разверток (rollouts) с помощью модели-учителя. Однако мы наблюдаем проблему «затухания учителя вне политики» (Off-policy Teacher Decay) в этой парадигме: для поздних токенов, когда контекст более ранней траектории студента является внеполитическим по отношению к учителю, способность учителя генерировать корректирующую оценку снижается и может вернуться к поведению завершения токенов, изученному на этапе предварительного обучения. Мы эмпирически подтверждаем эту проблему и предлагаем метод ранней остановки развертки (Early Stopping Rollout, ESR) для ее решения: простую, но эффективную стратегию дистилляции, которая ограничивает генерацию развертки первыми токенами ответа. Мы показываем, что ESR превосходит производительность полной развертки OPD по размеру модели, семейству, задачам и режиму обучения, а также демонстрирует гораздо более высокую эффективность использования GPU и стабильность обучения, особенно в сценариях с разными семействами моделей. Мы дополнительно исследуем механизм, лежащий в основе этой удивительной производительности, и обнаруживаем эффекты «каскадного выравнивания» (Cascading Alignment) и «приверженности суб-режиму» (Sub-mode Commitment), которые могут объяснить, почему ESR работает эффективно и иногда даже превосходит производительность модели-учителя. Кроме того, мы показываем, что эта стратегия выбора токенов на основе позиции не может быть полностью объяснена сигналами расхождения KL и энтропии.

English

On-policy distillation has recently emerged as a promising alternative to standard sequence-level imitation, training a student by scoring its own rollouts with a teacher model. However, we observe ``Off-policy Teacher Decay'' problem in this paradigm: for the later tokens, with student's earlier trajectory as context that is off-policy to the teacher, the teacher's ability to produce a corrective score would decay, and may fall back to token-completion behavior learned in the pre-training stage. We empirically verify this problem, and we propose Early Stopping Rollout (ESR) to fix it: a simple yet effective distillation strategy that simply restricts the rollout generation to the first response tokens. We show that ESR both surpasses the full rollout OPD performance across model size, family, tasks and training regime, and exhibit much higher GPU efficiency and training stability, especially under cross model family scenarios. We further investigate the mechanism behind this surprising performance and discovered "Cascading Alignment" and "Sub-mode Commitment" effect of ESR that may explain why it works effectively and even sometimes exceeding the teacher model performance. Besides, we show that this position-based token selection strategy cannot be fully explainable by KL divergence and entropy signals.