Sur le piratage de l'enseignant dans la distillation de modèles de langage
On Teacher Hacking in Language Model Distillation
February 4, 2025
Auteurs: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel
cs.AI
Résumé
Le post-entraînement des modèles de langage (LMs) repose de plus en plus sur les deux étapes suivantes : (i) la distillation des connaissances, où le LM est entraîné pour imiter un plus grand LM enseignant, et (ii) l'apprentissage par renforcement à partir des retours humains (RLHF), où le LM est aligné en optimisant un modèle de récompense. Dans la deuxième étape RLHF, un défi bien connu est le piratage de récompense, où le LM sur-optimise le modèle de récompense. Ce phénomène est en accord avec la loi de Goodhart et peut entraîner une performance dégradée sur l'objectif réel. Dans cet article, nous examinons si un phénomène similaire, que nous appelons piratage de l'enseignant, peut se produire lors de la distillation des connaissances. Cela pourrait survenir car le LM enseignant est lui-même une approximation imparfaite de la vraie distribution. Pour étudier cela, nous proposons une configuration expérimentale contrôlée comprenant : (i) un LM oracle représentant la distribution de référence, (ii) un LM enseignant distillé à partir de l'oracle, et (iii) un LM étudiant distillé à partir de l'enseignant. Nos expériences révèlent les observations suivantes. Lors de l'utilisation d'un ensemble de données hors ligne fixe pour la distillation, le piratage de l'enseignant se produit ; de plus, nous pouvons le détecter en observant lorsque le processus d'optimisation s'écarte des lois de convergence polynomiales. En revanche, l'utilisation de techniques de génération de données en ligne atténue efficacement le piratage de l'enseignant. Plus précisément, nous identifions la diversité des données comme le facteur clé pour prévenir le piratage. Dans l'ensemble, nos résultats fournissent une compréhension plus approfondie des avantages et des limites de la distillation pour la construction de LM robustes et efficaces.
English
Post-training of language models (LMs) increasingly relies on the following
two stages: (i) knowledge distillation, where the LM is trained to imitate a
larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF),
where the LM is aligned by optimizing a reward model. In the second RLHF stage,
a well-known challenge is reward hacking, where the LM over-optimizes the
reward model. Such phenomenon is in line with Goodhart's law and can lead to
degraded performance on the true objective. In this paper, we investigate
whether a similar phenomenon, that we call teacher hacking, can occur during
knowledge distillation. This could arise because the teacher LM is itself an
imperfect approximation of the true distribution. To study this, we propose a
controlled experimental setup involving: (i) an oracle LM representing the
ground-truth distribution, (ii) a teacher LM distilled from the oracle, and
(iii) a student LM distilled from the teacher. Our experiments reveal the
following insights. When using a fixed offline dataset for distillation,
teacher hacking occurs; moreover, we can detect it by observing when the
optimization process deviates from polynomial convergence laws. In contrast,
employing online data generation techniques effectively mitigates teacher
hacking. More precisely, we identify data diversity as the key factor in
preventing hacking. Overall, our findings provide a deeper understanding of the
benefits and limitations of distillation for building robust and efficient LMs.Summary
AI-Generated Summary