ChatPaper.aiChatPaper

Sull'Hacking dell'Insegnante nella Distillazione dei Modelli Linguistici

On Teacher Hacking in Language Model Distillation

February 4, 2025
Autori: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel
cs.AI

Abstract

Il post-addestramento dei modelli linguistici (LM) si basa sempre più sui seguenti due stadi: (i) distillazione della conoscenza, dove il LM viene addestrato a imitare un più grande LM insegnante, e (ii) apprendimento per rinforzo dal feedback umano (RLHF), dove il LM viene allineato ottimizzando un modello di ricompensa. Nel secondo stadio RLHF, una sfida ben nota è l'hacking della ricompensa, dove il LM ottimizza eccessivamente il modello di ricompensa. Tale fenomeno è in linea con la legge di Goodhart e può portare a una performance degradata sull'obiettivo vero. In questo articolo, indaghiamo se un fenomeno simile, che chiamiamo hacking dell'insegnante, possa verificarsi durante la distillazione della conoscenza. Ciò potrebbe verificarsi perché il LM insegnante è di per sé un'approssimazione imperfetta della vera distribuzione. Per studiare ciò, proponiamo un setup sperimentale controllato che coinvolge: (i) un LM oracolo che rappresenta la distribuzione veritiera, (ii) un LM insegnante distillato dall'oracolo, e (iii) un LM studente distillato dall'insegnante. I nostri esperimenti rivelano le seguenti intuizioni. Quando si utilizza un dataset offline fisso per la distillazione, si verifica l'hacking dell'insegnante; inoltre, possiamo rilevarlo osservando quando il processo di ottimizzazione si discosta dalle leggi di convergenza polinomiale. Al contrario, l'utilizzo di tecniche di generazione dati online mitiga efficacemente l'hacking dell'insegnante. Più precisamente, identifichiamo la diversità dei dati come il fattore chiave nella prevenzione dell'hacking. Nel complesso, le nostre scoperte forniscono una comprensione più approfondita dei benefici e dei limiti della distillazione per la costruzione di LM robusti ed efficienti.
English
Post-training of language models (LMs) increasingly relies on the following two stages: (i) knowledge distillation, where the LM is trained to imitate a larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF), where the LM is aligned by optimizing a reward model. In the second RLHF stage, a well-known challenge is reward hacking, where the LM over-optimizes the reward model. Such phenomenon is in line with Goodhart's law and can lead to degraded performance on the true objective. In this paper, we investigate whether a similar phenomenon, that we call teacher hacking, can occur during knowledge distillation. This could arise because the teacher LM is itself an imperfect approximation of the true distribution. To study this, we propose a controlled experimental setup involving: (i) an oracle LM representing the ground-truth distribution, (ii) a teacher LM distilled from the oracle, and (iii) a student LM distilled from the teacher. Our experiments reveal the following insights. When using a fixed offline dataset for distillation, teacher hacking occurs; moreover, we can detect it by observing when the optimization process deviates from polynomial convergence laws. In contrast, employing online data generation techniques effectively mitigates teacher hacking. More precisely, we identify data diversity as the key factor in preventing hacking. Overall, our findings provide a deeper understanding of the benefits and limitations of distillation for building robust and efficient LMs.

Summary

AI-Generated Summary

PDF182February 6, 2025