Переосмысление дистилляции больших языковых моделей в онлайновом режиме: феноменология, механизм и рецепт

Аннотация

Он-политическая дистилляция (OPD) стала ключевой техникой в пост-обучении больших языковых моделей, однако её тренировочная динамика остаётся малоизученной. В данной работе представлено систематическое исследование динамики и механизмов OPD. Мы сначала определяем, что два условия определяют успех или провал OPD: (i) студент и учитель должны иметь совместимые паттерны мышления; и (ii) даже при согласованных паттермах мышления и более высоких баллах учитель должен предоставлять подлинно новые возможности, выходящие за рамки того, что студент видел во время обучения. Мы проверяем эти выводы с помощью слабой-к-сильной обратной дистилляции, показывая, что учителя из одного семейства моделей (1.5B и 7B) являются распределительно неразличимыми с точки зрения студента. Исследуя механизм на уровне токенов, мы демонстрируем, что успешная OPD характеризуется прогрессирующим выравниванием по токенам с высокой вероятностью в состояниях, посещаемых студентом — небольшому общему набору токенов, который концентрирует большую часть вероятностной массы (97%-99%). Мы также предлагаем две практические стратегии для восстановления проваливающейся OPD: холодный старт на офф-политических данных и выбор промптов, выровненных с учителем. Наконец, мы показываем, что кажущийся «бесплатным обедом» OPD в виде плотного вознаграждения на уровне токенов имеет свою цену, поднимая вопрос о том, может ли OPD масштабироваться до дистилляции с длинным горизонтом.

English

On-policy distillation (OPD) has become a core technique in the post-training of large language models, yet its training dynamics remain poorly understood. This paper provides a systematic investigation of OPD dynamics and mechanisms. We first identify that two conditions govern whether OPD succeeds or fails: (i) the student and teacher should share compatible thinking patterns; and (ii) even with consistent thinking patterns and higher scores, the teacher must offer genuinely new capabilities beyond what the student has seen during training. We validate these findings through weak-to-strong reverse distillation, showing that same-family 1.5B and 7B teachers are distributionally indistinguishable from the student's perspective. Probing into the token-level mechanism, we show that successful OPD is characterized by progressive alignment on high-probability tokens at student-visited states, a small shared token set that concentrates most of the probability mass (97%-99%). We further propose two practical strategies to recover failing OPD: off-policy cold start and teacher-aligned prompt selection. Finally, we show that OPD's apparent free lunch of dense token-level reward comes at a cost, raising the question of whether OPD can scale to long-horizon distillation.

Переосмысление дистилляции больших языковых моделей в онлайновом режиме: феноменология, механизм и рецепт

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Аннотация

Support