ChatPaper.aiChatPaper

Законы масштабирования дистилляции

Distillation Scaling Laws

February 12, 2025
Авторы: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI

Аннотация

Мы представляем закон масштабирования дистилляции, который оценивает производительность дистиллированной модели на основе бюджета вычислений и его распределения между учеником и учителем. Наши результаты снижают риски, связанные с использованием дистилляции в масштабе; распределение вычислений для учителя и ученических моделей теперь может быть выполнено для максимизации производительности ученика. Мы предоставляем оптимальные вычисления рецепты дистилляции, когда 1) учитель существует, или 2) учитель нуждается в обучении. Если необходимо дистиллировать множество учеников или учитель уже существует, дистилляция превосходит надзорное предварительное обучение до уровня вычислений, который растет предсказуемо с размером ученика. Если необходимо дистиллировать одного ученика и учитель также нуждается в обучении, следует провести надзорное обучение. Кроме того, мы предоставляем исследования нашего масштабного изучения дистилляции, которые увеличивают наше понимание дистилляции и информируют экспериментальное проектирование.
English
We provide a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings reduce the risks associated with using distillation at scale; compute allocation for both the teacher and student models can now be done to maximize student performance. We provide compute optimal distillation recipes for when 1) a teacher exists, or 2) a teacher needs training. If many students are to be distilled, or a teacher already exists, distillation outperforms supervised pretraining until a compute level which grows predictably with student size. If one student is to be distilled and a teacher also needs training, supervised learning should be done instead. Additionally, we provide insights across our large scale study of distillation, which increase our understanding of distillation and inform experimental design.

Summary

AI-Generated Summary

PDF484February 13, 2025