Über das Lehrer-Hacking bei der Destillation von Sprachmodellen
On Teacher Hacking in Language Model Distillation
February 4, 2025
Autoren: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel
cs.AI
Zusammenfassung
Die Nachbearbeitung von Sprachmodellen (LMs) stützt sich zunehmend auf die folgenden beiden Phasen: (i) Wissensvermittlung, bei der das LM trainiert wird, um ein größeres Lehrer-LM zu imitieren, und (ii) Verstärkungslernen durch menschliches Feedback (RLHF), bei dem das LM durch Optimierung eines Belohnungsmodells ausgerichtet wird. In der zweiten RLHF-Phase stellt eine bekannte Herausforderung das Belohnungs-Hacking dar, bei dem das LM das Belohnungsmodell überoptimiert. Ein solches Phänomen steht im Einklang mit dem Goodhart-Gesetz und kann zu einer verschlechterten Leistung beim eigentlichen Ziel führen. In diesem Papier untersuchen wir, ob ein ähnliches Phänomen, das wir als Lehrer-Hacking bezeichnen, während der Wissensvermittlung auftreten kann. Dies könnte daher kommen, dass das Lehrer-LM selbst eine unvollkommene Annäherung an die wahre Verteilung ist. Um dies zu untersuchen, schlagen wir ein kontrolliertes experimentelles Setup vor, das Folgendes umfasst: (i) ein Orakel-LM, das die Grundwahrheit darstellt, (ii) ein Lehrer-LM, das aus dem Orakel destilliert wurde, und (iii) ein Schüler-LM, das aus dem Lehrer destilliert wurde. Unsere Experimente enthüllen folgende Erkenntnisse. Bei Verwendung eines festen Offline-Datensatzes für die Wissensvermittlung tritt Lehrer-Hacking auf; zudem können wir es erkennen, indem wir beobachten, wann der Optimierungsprozess von den konvergenten Gesetzen abweicht. Im Gegensatz dazu können durch den Einsatz von Online-Datengenerierungstechniken Lehrer-Hacking effektiv gemildert werden. Genauer identifizieren wir Datenvielfalt als den Schlüsselfaktor zur Verhinderung von Hacking. Insgesamt liefern unsere Ergebnisse ein tieferes Verständnis der Vorzüge und Einschränkungen der Wissensvermittlung für den Aufbau robuster und effizienter LMs.
English
Post-training of language models (LMs) increasingly relies on the following
two stages: (i) knowledge distillation, where the LM is trained to imitate a
larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF),
where the LM is aligned by optimizing a reward model. In the second RLHF stage,
a well-known challenge is reward hacking, where the LM over-optimizes the
reward model. Such phenomenon is in line with Goodhart's law and can lead to
degraded performance on the true objective. In this paper, we investigate
whether a similar phenomenon, that we call teacher hacking, can occur during
knowledge distillation. This could arise because the teacher LM is itself an
imperfect approximation of the true distribution. To study this, we propose a
controlled experimental setup involving: (i) an oracle LM representing the
ground-truth distribution, (ii) a teacher LM distilled from the oracle, and
(iii) a student LM distilled from the teacher. Our experiments reveal the
following insights. When using a fixed offline dataset for distillation,
teacher hacking occurs; moreover, we can detect it by observing when the
optimization process deviates from polynomial convergence laws. In contrast,
employing online data generation techniques effectively mitigates teacher
hacking. More precisely, we identify data diversity as the key factor in
preventing hacking. Overall, our findings provide a deeper understanding of the
benefits and limitations of distillation for building robust and efficient LMs.Summary
AI-Generated Summary