TAID : Distillation Interpolée Temporellement Adaptative pour un Transfert de Connaissances Efficace dans les Modèles de Langage
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
January 28, 2025
Auteurs: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI
Résumé
Les modèles de langage causaux ont démontré des capacités remarquables, mais leur taille pose des défis significatifs pour leur déploiement dans des environnements aux ressources limitées. La distillation des connaissances, une technique largement utilisée pour transférer les connaissances d'un grand modèle enseignant à un petit modèle étudiant, présente une approche prometteuse pour la compression des modèles. Un problème majeur subsiste dans les importantes différences entre les modèles enseignant et étudiant, à savoir l'écart de capacité substantiel, la moyenne de mode et l'effondrement de mode, qui posent des obstacles pendant la distillation. Pour résoudre ces problèmes, nous introduisons la Distillation Interpolée Temporellement Adaptative (TAID), une nouvelle approche de distillation des connaissances qui interpole dynamiquement les distributions de l'étudiant et de l'enseignant à travers une distribution intermédiaire adaptative, se déplaçant progressivement de la distribution initiale de l'étudiant vers la distribution de l'enseignant. Nous fournissons une analyse théorique démontrant la capacité de TAID à prévenir l'effondrement de mode et montrons empiriquement son efficacité pour résoudre l'écart de capacité tout en équilibrant la moyenne de mode et l'effondrement de mode. Nos expériences approfondies démontrent la performance supérieure de TAID sur différentes tailles de modèles et architectures, aussi bien dans des scénarios d'ajustement d'instructions que de pré-entraînement. De plus, nous mettons en avant l'impact pratique de TAID en développant deux modèles de base compacts de pointe : TAID-LLM-1.5B pour les tâches linguistiques et TAID-VLM-2B pour les tâches vision-langage. Ces résultats démontrent l'efficacité de TAID dans la création de modèles performants et efficaces, faisant progresser le développement de technologies AI plus accessibles.
English
Causal language models have demonstrated remarkable capabilities, but their
size poses significant challenges for deployment in resource-constrained
environments. Knowledge distillation, a widely-used technique for transferring
knowledge from a large teacher model to a small student model, presents a
promising approach for model compression. A significant remaining issue lies in
the major differences between teacher and student models, namely the
substantial capacity gap, mode averaging, and mode collapse, which pose
barriers during distillation. To address these issues, we introduce
Temporally Adaptive Interpolated Distillation (TAID), a novel
knowledge distillation approach that dynamically interpolates student and
teacher distributions through an adaptive intermediate distribution, gradually
shifting from the student's initial distribution towards the teacher's
distribution. We provide a theoretical analysis demonstrating TAID's ability to
prevent mode collapse and empirically show its effectiveness in addressing the
capacity gap while balancing mode averaging and mode collapse. Our
comprehensive experiments demonstrate TAID's superior performance across
various model sizes and architectures in both instruction tuning and
pre-training scenarios. Furthermore, we showcase TAID's practical impact by
developing two state-of-the-art compact foundation models:
TAID-LLM-1.5B for language tasks and TAID-VLM-2B for
vision-language tasks. These results demonstrate TAID's effectiveness in
creating high-performing and efficient models, advancing the development of
more accessible AI technologies.Summary
AI-Generated Summary