ChatPaper.aiChatPaper

Over het hacken van docenten bij het destilleren van taalmodel.

On Teacher Hacking in Language Model Distillation

February 4, 2025
Auteurs: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel
cs.AI

Samenvatting

Het post-trainen van taalmodellen (LM's) vertrouwt steeds meer op de volgende twee fasen: (i) kennisdistillatie, waarbij het LM wordt getraind om een groter lerend LM na te bootsen, en (ii) versterkend leren van menselijke feedback (RLHF), waarbij het LM wordt uitgelijnd door optimalisatie van een beloningsmodel. In de tweede RLHF-fase is een bekende uitdaging beloningsmanipulatie, waarbij het LM het beloningsmodel overmatig optimaliseert. Dit fenomeen is in lijn met de wet van Goodhart en kan leiden tot verminderde prestaties op het werkelijke doel. In dit artikel onderzoeken we of een vergelijkbaar fenomeen, dat we lerarenmanipulatie noemen, kan optreden tijdens kennisdistillatie. Dit zou kunnen gebeuren omdat het lerend LM zelf een onvolmaakte benadering van de ware verdeling is. Om dit te bestuderen, stellen we een gecontroleerde experimentele opstelling voor met: (i) een orakel LM dat de ware verdeling vertegenwoordigt, (ii) een lerend LM gedistilleerd uit het orakel, en (iii) een studenten LM gedistilleerd uit de leraar. Onze experimenten onthullen de volgende inzichten. Bij het gebruik van een vast offline dataset voor distillatie, treedt lerarenmanipulatie op; bovendien kunnen we dit detecteren door te observeren wanneer het optimalisatieproces afwijkt van polynomiale convergentiewetten. Daarentegen vermindert het effectief toepassen van online gegevensgeneratietechnieken lerarenmanipulatie. Meer specifiek identificeren we gegevensdiversiteit als de sleutelfactor om manipulatie te voorkomen. Over het algemeen bieden onze bevindingen een dieper inzicht in de voordelen en beperkingen van distillatie voor het bouwen van robuuste en efficiënte LM's.
English
Post-training of language models (LMs) increasingly relies on the following two stages: (i) knowledge distillation, where the LM is trained to imitate a larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF), where the LM is aligned by optimizing a reward model. In the second RLHF stage, a well-known challenge is reward hacking, where the LM over-optimizes the reward model. Such phenomenon is in line with Goodhart's law and can lead to degraded performance on the true objective. In this paper, we investigate whether a similar phenomenon, that we call teacher hacking, can occur during knowledge distillation. This could arise because the teacher LM is itself an imperfect approximation of the true distribution. To study this, we propose a controlled experimental setup involving: (i) an oracle LM representing the ground-truth distribution, (ii) a teacher LM distilled from the oracle, and (iii) a student LM distilled from the teacher. Our experiments reveal the following insights. When using a fixed offline dataset for distillation, teacher hacking occurs; moreover, we can detect it by observing when the optimization process deviates from polynomial convergence laws. In contrast, employing online data generation techniques effectively mitigates teacher hacking. More precisely, we identify data diversity as the key factor in preventing hacking. Overall, our findings provide a deeper understanding of the benefits and limitations of distillation for building robust and efficient LMs.

Summary

AI-Generated Summary

PDF182February 6, 2025