ChatPaper.aiChatPaper

Leggi di riduzione della distillazione

Distillation Scaling Laws

February 12, 2025
Autori: Dan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
cs.AI

Abstract

Forniamo una legge di scala di distillazione che stima le prestazioni del modello distillato in base a un budget di calcolo e alla sua allocazione tra lo studente e l'insegnante. I nostri risultati riducono i rischi associati all'uso della distillazione su larga scala; l'allocazione di calcolo per entrambi i modelli, insegnante e studente, può ora essere effettuata per massimizzare le prestazioni dello studente. Forniamo ricette ottimali di distillazione per il calcolo quando 1) esiste un insegnante, o 2) un insegnante ha bisogno di formazione. Se molti studenti devono essere distillati, o se esiste già un insegnante, la distillazione supera il preaddestramento supervisionato fino a un livello di calcolo che cresce in modo prevedibile con le dimensioni dello studente. Se si deve distillare un solo studente e l'insegnante ha anche bisogno di formazione, si dovrebbe invece fare apprendimento supervisionato. Inoltre, forniamo approfondimenti attraverso il nostro studio su larga scala della distillazione, che aumentano la nostra comprensione della distillazione e informano la progettazione sperimentale.
English
We provide a distillation scaling law that estimates distilled model performance based on a compute budget and its allocation between the student and teacher. Our findings reduce the risks associated with using distillation at scale; compute allocation for both the teacher and student models can now be done to maximize student performance. We provide compute optimal distillation recipes for when 1) a teacher exists, or 2) a teacher needs training. If many students are to be distilled, or a teacher already exists, distillation outperforms supervised pretraining until a compute level which grows predictably with student size. If one student is to be distilled and a teacher also needs training, supervised learning should be done instead. Additionally, we provide insights across our large scale study of distillation, which increase our understanding of distillation and inform experimental design.

Summary

AI-Generated Summary

PDF484February 13, 2025