Sobre a Manipulação de Professores na Destilação de Modelos de Linguagem
On Teacher Hacking in Language Model Distillation
February 4, 2025
Autores: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel
cs.AI
Resumo
O pós-treinamento de modelos de linguagem (LMs) depende cada vez mais das seguintes duas etapas: (i) destilação de conhecimento, onde o LM é treinado para imitar um LM professor maior, e (ii) aprendizado por reforço a partir do feedback humano (RLHF), onde o LM é alinhado otimizando um modelo de recompensa. Na segunda etapa RLHF, um desafio bem conhecido é a manipulação de recompensas, onde o LM otimiza demais o modelo de recompensa. Esse fenômeno está em linha com a Lei de Goodhart e pode levar a uma degradação no desempenho do objetivo real. Neste artigo, investigamos se um fenômeno semelhante, que chamamos de manipulação do professor, pode ocorrer durante a destilação de conhecimento. Isso poderia surgir porque o LM professor é em si uma aproximação imperfeita da verdadeira distribuição. Para estudar isso, propomos uma configuração experimental controlada envolvendo: (i) um LM oráculo representando a distribuição verdadeira, (ii) um LM professor destilado do oráculo e (iii) um LM aluno destilado do professor. Nossos experimentos revelam as seguintes percepções. Ao usar um conjunto de dados offline fixo para destilação, a manipulação do professor ocorre; além disso, podemos detectá-la observando quando o processo de otimização se desvia das leis de convergência polinomial. Em contraste, o uso de técnicas de geração de dados online mitiga efetivamente a manipulação do professor. Mais precisamente, identificamos a diversidade de dados como o fator-chave na prevenção da manipulação. No geral, nossas descobertas fornecem uma compreensão mais profunda dos benefícios e limitações da destilação para a construção de LMs robustos e eficientes.
English
Post-training of language models (LMs) increasingly relies on the following
two stages: (i) knowledge distillation, where the LM is trained to imitate a
larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF),
where the LM is aligned by optimizing a reward model. In the second RLHF stage,
a well-known challenge is reward hacking, where the LM over-optimizes the
reward model. Such phenomenon is in line with Goodhart's law and can lead to
degraded performance on the true objective. In this paper, we investigate
whether a similar phenomenon, that we call teacher hacking, can occur during
knowledge distillation. This could arise because the teacher LM is itself an
imperfect approximation of the true distribution. To study this, we propose a
controlled experimental setup involving: (i) an oracle LM representing the
ground-truth distribution, (ii) a teacher LM distilled from the oracle, and
(iii) a student LM distilled from the teacher. Our experiments reveal the
following insights. When using a fixed offline dataset for distillation,
teacher hacking occurs; moreover, we can detect it by observing when the
optimization process deviates from polynomial convergence laws. In contrast,
employing online data generation techniques effectively mitigates teacher
hacking. More precisely, we identify data diversity as the key factor in
preventing hacking. Overall, our findings provide a deeper understanding of the
benefits and limitations of distillation for building robust and efficient LMs.Summary
AI-Generated Summary