ChatPaper.aiChatPaper

言語モデルの蒸留における教師のハッキングについて

On Teacher Hacking in Language Model Distillation

February 4, 2025
著者: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel
cs.AI

要旨

言語モデル(LM)の事後トレーニングは、ますます以下の2つの段階に依存するようになっています:(i)知識蒸留、つまり、LMがより大きな教師LMを模倣するようにトレーニングされる段階、および(ii)人間のフィードバックからの強化学習(RLHF)、つまり、LMが報酬モデルを最適化することで整列される段階です。第2のRLHF段階では、報酬ハッキングとして知られる課題があり、そこではLMが報酬モデルを過度に最適化します。このような現象はGoodhartの法則に沿っており、真の目的に対する性能の低下につながる可能性があります。本論文では、知識蒸留中に教師ハッキングと呼ぶ類似の現象が発生する可能性があるかどうかを調査します。これは、教師LM自体が真の分布の不完全な近似であるために起こり得ます。これを研究するために、次のような制御された実験セットアップを提案します:(i)真の分布を表すオラクルLM、(ii)オラクルから蒸留された教師LM、および(iii)教師から蒸留された生徒LM。私たちの実験は、次の洞察を明らかにします。蒸留のための固定オフラインデータセットを使用すると、教師ハッキングが発生します。さらに、最適化プロセスが多項式収束法から逸脱するときにそれを検出できます。対照的に、オンラインデータ生成技術を使用すると、教師ハッキングを効果的に緩和できます。より具体的には、データの多様性をハッキングを防ぐための主要要因として特定します。全体として、私たちの研究結果は、頑健で効率的なLMを構築するための蒸留の利点と限界についてのより深い理解を提供します。
English
Post-training of language models (LMs) increasingly relies on the following two stages: (i) knowledge distillation, where the LM is trained to imitate a larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF), where the LM is aligned by optimizing a reward model. In the second RLHF stage, a well-known challenge is reward hacking, where the LM over-optimizes the reward model. Such phenomenon is in line with Goodhart's law and can lead to degraded performance on the true objective. In this paper, we investigate whether a similar phenomenon, that we call teacher hacking, can occur during knowledge distillation. This could arise because the teacher LM is itself an imperfect approximation of the true distribution. To study this, we propose a controlled experimental setup involving: (i) an oracle LM representing the ground-truth distribution, (ii) a teacher LM distilled from the oracle, and (iii) a student LM distilled from the teacher. Our experiments reveal the following insights. When using a fixed offline dataset for distillation, teacher hacking occurs; moreover, we can detect it by observing when the optimization process deviates from polynomial convergence laws. In contrast, employing online data generation techniques effectively mitigates teacher hacking. More precisely, we identify data diversity as the key factor in preventing hacking. Overall, our findings provide a deeper understanding of the benefits and limitations of distillation for building robust and efficient LMs.

Summary

AI-Generated Summary

PDF182February 6, 2025