О Взломе Учителя в Дистилляции Языковой Модели
On Teacher Hacking in Language Model Distillation
February 4, 2025
Авторы: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel
cs.AI
Аннотация
Посттренировка языковых моделей (ЯМ) все чаще опирается на следующие два этапа: (i) дистилляция знаний, где ЯМ обучается имитировать более крупную учительскую ЯМ, и (ii) обучение с подкреплением на основе обратной связи от человека (RLHF), где ЯМ выравнивается путем оптимизации модели вознаграждения. На втором этапе RLHF хорошо известной проблемой является взлом вознаграждения, когда ЯМ переоптимизирует модель вознаграждения. Такое явление соответствует закону Гудхарта и может привести к ухудшению производительности по истинной цели. В данной статье мы исследуем, может ли происходить аналогичное явление, которое мы называем взломом учителя, во время дистилляции знаний. Это может произойти потому, что учительская ЯМ сама по себе является неполным приближением истинного распределения. Для изучения этого мы предлагаем контролируемую экспериментальную установку, включающую: (i) оракульскую ЯМ, представляющую истинное распределение, (ii) учительскую ЯМ, дистиллированную из оракула, и (iii) студенческую ЯМ, дистиллированную из учителя. Наши эксперименты раскрывают следующие идеи. При использовании фиксированного офлайн набора данных для дистилляции происходит взлом учителя; более того, мы можем обнаружить его, наблюдая отклонения оптимизационного процесса от законов полиномиальной сходимости. В отличие от этого, применение техник генерации данных в реальном времени эффективно смягчает взлом учителя. Более точно, мы выявляем разнообразие данных как ключевой фактор в предотвращении взлома. В целом, наши результаты обеспечивают более глубокое понимание преимуществ и ограничений дистилляции для создания надежных и эффективных ЯМ.
English
Post-training of language models (LMs) increasingly relies on the following
two stages: (i) knowledge distillation, where the LM is trained to imitate a
larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF),
where the LM is aligned by optimizing a reward model. In the second RLHF stage,
a well-known challenge is reward hacking, where the LM over-optimizes the
reward model. Such phenomenon is in line with Goodhart's law and can lead to
degraded performance on the true objective. In this paper, we investigate
whether a similar phenomenon, that we call teacher hacking, can occur during
knowledge distillation. This could arise because the teacher LM is itself an
imperfect approximation of the true distribution. To study this, we propose a
controlled experimental setup involving: (i) an oracle LM representing the
ground-truth distribution, (ii) a teacher LM distilled from the oracle, and
(iii) a student LM distilled from the teacher. Our experiments reveal the
following insights. When using a fixed offline dataset for distillation,
teacher hacking occurs; moreover, we can detect it by observing when the
optimization process deviates from polynomial convergence laws. In contrast,
employing online data generation techniques effectively mitigates teacher
hacking. More precisely, we identify data diversity as the key factor in
preventing hacking. Overall, our findings provide a deeper understanding of the
benefits and limitations of distillation for building robust and efficient LMs.Summary
AI-Generated Summary