蒸留スケーリング法則
Distillation Scaling Laws
February 12, 2025
著者: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI
要旨
我々は、生徒と教師の間での計算予算の割り当てに基づいて蒸留されたモデルの性能を推定する蒸留スケーリング則を提供します。我々の調査結果は、蒸留を大規模に利用する際に伴うリスクを軽減します。教師と生徒モデルのための計算割り当ては、生徒の性能を最大化するために行うことができます。教師が存在する場合、または教師のトレーニングが必要な場合の計算最適な蒸留レシピを提供します。多くの生徒を蒸留する場合や、すでに教師が存在する場合、生徒のサイズと予測可能に増加する計算レベルまで、蒸留は監督された事前トレーニングを上回ります。1人の生徒を蒸留し、かつ教師もトレーニングが必要な場合は、代わりに監督学習を行うべきです。さらに、蒸留の大規模な研究における洞察を提供し、蒸留の理解を深め、実験設計に情報を提供します。
English
We provide a distillation scaling law that estimates distilled model
performance based on a compute budget and its allocation between the student
and teacher. Our findings reduce the risks associated with using distillation
at scale; compute allocation for both the teacher and student models can now be
done to maximize student performance. We provide compute optimal distillation
recipes for when 1) a teacher exists, or 2) a teacher needs training. If many
students are to be distilled, or a teacher already exists, distillation
outperforms supervised pretraining until a compute level which grows
predictably with student size. If one student is to be distilled and a teacher
also needs training, supervised learning should be done instead. Additionally,
we provide insights across our large scale study of distillation, which
increase our understanding of distillation and inform experimental design.Summary
AI-Generated Summary