ChatPaper.aiChatPaper

Leis de Escalonamento de Destilação

Distillation Scaling Laws

February 12, 2025
Autores: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI

Resumo

Apresentamos uma lei de escalonamento de destilação que estima o desempenho do modelo destilado com base em um orçamento de computação e sua alocação entre o estudante e o professor. Nossos achados reduzem os riscos associados ao uso da destilação em larga escala; a alocação de computação para os modelos do professor e do estudante pode agora ser feita para maximizar o desempenho do estudante. Fornecemos receitas de destilação computacionalmente ótimas para quando 1) um professor já existe, ou 2) um professor precisa ser treinado. Se muitos estudantes forem destilados, ou se um professor já existir, a destilação supera o pré-treinamento supervisionado até um nível de computação que cresce de forma previsível com o tamanho do estudante. Se um estudante for destilado e um professor também precisar ser treinado, o aprendizado supervisionado deve ser realizado em seu lugar. Além disso, oferecemos insights de nosso estudo em larga escala sobre destilação, que aumentam nossa compreensão do processo e orientam o design experimental.
English
We provide a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings reduce the risks associated with using distillation at scale; compute allocation for both the teacher and student models can now be done to maximize student performance. We provide compute optimal distillation recipes for when 1) a teacher exists, or 2) a teacher needs training. If many students are to be distilled, or a teacher already exists, distillation outperforms supervised pretraining until a compute level which grows predictably with student size. If one student is to be distilled and a teacher also needs training, supervised learning should be done instead. Additionally, we provide insights across our large scale study of distillation, which increase our understanding of distillation and inform experimental design.

Summary

AI-Generated Summary

PDF484February 13, 2025