ChatPaper.aiChatPaper

Über das Lehrer-Hacking bei der Destillation von Sprachmodellen

On Teacher Hacking in Language Model Distillation

February 4, 2025
Autoren: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel
cs.AI

Zusammenfassung

Die Nachbearbeitung von Sprachmodellen (LMs) stützt sich zunehmend auf die folgenden beiden Phasen: (i) Wissensvermittlung, bei der das LM trainiert wird, um ein größeres Lehrer-LM zu imitieren, und (ii) Verstärkungslernen durch menschliches Feedback (RLHF), bei dem das LM durch Optimierung eines Belohnungsmodells ausgerichtet wird. In der zweiten RLHF-Phase stellt eine bekannte Herausforderung das Belohnungs-Hacking dar, bei dem das LM das Belohnungsmodell überoptimiert. Ein solches Phänomen steht im Einklang mit dem Goodhart-Gesetz und kann zu einer verschlechterten Leistung beim eigentlichen Ziel führen. In diesem Papier untersuchen wir, ob ein ähnliches Phänomen, das wir als Lehrer-Hacking bezeichnen, während der Wissensvermittlung auftreten kann. Dies könnte daher kommen, dass das Lehrer-LM selbst eine unvollkommene Annäherung an die wahre Verteilung ist. Um dies zu untersuchen, schlagen wir ein kontrolliertes experimentelles Setup vor, das Folgendes umfasst: (i) ein Orakel-LM, das die Grundwahrheit darstellt, (ii) ein Lehrer-LM, das aus dem Orakel destilliert wurde, und (iii) ein Schüler-LM, das aus dem Lehrer destilliert wurde. Unsere Experimente enthüllen folgende Erkenntnisse. Bei Verwendung eines festen Offline-Datensatzes für die Wissensvermittlung tritt Lehrer-Hacking auf; zudem können wir es erkennen, indem wir beobachten, wann der Optimierungsprozess von den konvergenten Gesetzen abweicht. Im Gegensatz dazu können durch den Einsatz von Online-Datengenerierungstechniken Lehrer-Hacking effektiv gemildert werden. Genauer identifizieren wir Datenvielfalt als den Schlüsselfaktor zur Verhinderung von Hacking. Insgesamt liefern unsere Ergebnisse ein tieferes Verständnis der Vorzüge und Einschränkungen der Wissensvermittlung für den Aufbau robuster und effizienter LMs.
English
Post-training of language models (LMs) increasingly relies on the following two stages: (i) knowledge distillation, where the LM is trained to imitate a larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF), where the LM is aligned by optimizing a reward model. In the second RLHF stage, a well-known challenge is reward hacking, where the LM over-optimizes the reward model. Such phenomenon is in line with Goodhart's law and can lead to degraded performance on the true objective. In this paper, we investigate whether a similar phenomenon, that we call teacher hacking, can occur during knowledge distillation. This could arise because the teacher LM is itself an imperfect approximation of the true distribution. To study this, we propose a controlled experimental setup involving: (i) an oracle LM representing the ground-truth distribution, (ii) a teacher LM distilled from the oracle, and (iii) a student LM distilled from the teacher. Our experiments reveal the following insights. When using a fixed offline dataset for distillation, teacher hacking occurs; moreover, we can detect it by observing when the optimization process deviates from polynomial convergence laws. In contrast, employing online data generation techniques effectively mitigates teacher hacking. More precisely, we identify data diversity as the key factor in preventing hacking. Overall, our findings provide a deeper understanding of the benefits and limitations of distillation for building robust and efficient LMs.

Summary

AI-Generated Summary

PDF182February 6, 2025