ChatPaper.aiChatPaper

TAID : Distillation Interpolée Temporellement Adaptative pour un Transfert de Connaissances Efficace dans les Modèles de Langage

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

January 28, 2025
Auteurs: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI

Résumé

Les modèles de langage causaux ont démontré des capacités remarquables, mais leur taille pose des défis significatifs pour leur déploiement dans des environnements aux ressources limitées. La distillation des connaissances, une technique largement utilisée pour transférer les connaissances d'un grand modèle enseignant à un petit modèle étudiant, présente une approche prometteuse pour la compression des modèles. Un problème majeur subsiste dans les importantes différences entre les modèles enseignant et étudiant, à savoir l'écart de capacité substantiel, la moyenne de mode et l'effondrement de mode, qui posent des obstacles pendant la distillation. Pour résoudre ces problèmes, nous introduisons la Distillation Interpolée Temporellement Adaptative (TAID), une nouvelle approche de distillation des connaissances qui interpole dynamiquement les distributions de l'étudiant et de l'enseignant à travers une distribution intermédiaire adaptative, se déplaçant progressivement de la distribution initiale de l'étudiant vers la distribution de l'enseignant. Nous fournissons une analyse théorique démontrant la capacité de TAID à prévenir l'effondrement de mode et montrons empiriquement son efficacité pour résoudre l'écart de capacité tout en équilibrant la moyenne de mode et l'effondrement de mode. Nos expériences approfondies démontrent la performance supérieure de TAID sur différentes tailles de modèles et architectures, aussi bien dans des scénarios d'ajustement d'instructions que de pré-entraînement. De plus, nous mettons en avant l'impact pratique de TAID en développant deux modèles de base compacts de pointe : TAID-LLM-1.5B pour les tâches linguistiques et TAID-VLM-2B pour les tâches vision-langage. Ces résultats démontrent l'efficacité de TAID dans la création de modèles performants et efficaces, faisant progresser le développement de technologies AI plus accessibles.
English
Causal language models have demonstrated remarkable capabilities, but their size poses significant challenges for deployment in resource-constrained environments. Knowledge distillation, a widely-used technique for transferring knowledge from a large teacher model to a small student model, presents a promising approach for model compression. A significant remaining issue lies in the major differences between teacher and student models, namely the substantial capacity gap, mode averaging, and mode collapse, which pose barriers during distillation. To address these issues, we introduce Temporally Adaptive Interpolated Distillation (TAID), a novel knowledge distillation approach that dynamically interpolates student and teacher distributions through an adaptive intermediate distribution, gradually shifting from the student's initial distribution towards the teacher's distribution. We provide a theoretical analysis demonstrating TAID's ability to prevent mode collapse and empirically show its effectiveness in addressing the capacity gap while balancing mode averaging and mode collapse. Our comprehensive experiments demonstrate TAID's superior performance across various model sizes and architectures in both instruction tuning and pre-training scenarios. Furthermore, we showcase TAID's practical impact by developing two state-of-the-art compact foundation models: TAID-LLM-1.5B for language tasks and TAID-VLM-2B for vision-language tasks. These results demonstrate TAID's effectiveness in creating high-performing and efficient models, advancing the development of more accessible AI technologies.

Summary

AI-Generated Summary

PDF65January 30, 2025