TAID: Interpolazione Adattiva Temporale per il Trasferimento Efficiente di Conoscenza nei Modelli Linguistici
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
January 28, 2025
Autori: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI
Abstract
I modelli di linguaggio causali hanno dimostrato capacità notevoli, ma le loro dimensioni pongono significativi ostacoli per l'implementazione in ambienti con risorse limitate. La distillazione della conoscenza, una tecnica ampiamente utilizzata per trasferire conoscenze da un grande modello insegnante a un modello studente più piccolo, rappresenta un approccio promettente per la compressione del modello. Un problema significativo rimasto riguarda le principali differenze tra i modelli insegnante e studente, ovvero il notevole divario di capacità, la media dei modi e il collasso dei modi, che pongono ostacoli durante la distillazione. Per affrontare tali questioni, introduciamo la Distillazione Interpolata Temporalmente Adattiva (TAID), un nuovo approccio alla distillazione della conoscenza che interpola dinamicamente le distribuzioni dello studente e dell'insegnante attraverso una distribuzione intermedia adattiva, spostandosi gradualmente dalla distribuzione iniziale dello studente verso quella dell'insegnante. Forniamo un'analisi teorica che dimostra la capacità di TAID di prevenire il collasso dei modi e mostriamo empiricamente la sua efficacia nel gestire il divario di capacità bilanciando la media dei modi e il collasso dei modi. I nostri esperimenti esaustivi dimostrano le prestazioni superiori di TAID su varie dimensioni e architetture di modelli sia nei casi di messa a punto dell'istruzione che di pre-addestramento. Inoltre, mostriamo l'impatto pratico di TAID sviluppando due modelli fondamentali compatti all'avanguardia: TAID-LLM-1.5B per compiti linguistici e TAID-VLM-2B per compiti visione-linguaggio. Questi risultati dimostrano l'efficacia di TAID nella creazione di modelli efficienti ad alte prestazioni, promuovendo lo sviluppo di tecnologie AI più accessibili.
English
Causal language models have demonstrated remarkable capabilities, but their
size poses significant challenges for deployment in resource-constrained
environments. Knowledge distillation, a widely-used technique for transferring
knowledge from a large teacher model to a small student model, presents a
promising approach for model compression. A significant remaining issue lies in
the major differences between teacher and student models, namely the
substantial capacity gap, mode averaging, and mode collapse, which pose
barriers during distillation. To address these issues, we introduce
Temporally Adaptive Interpolated Distillation (TAID), a novel
knowledge distillation approach that dynamically interpolates student and
teacher distributions through an adaptive intermediate distribution, gradually
shifting from the student's initial distribution towards the teacher's
distribution. We provide a theoretical analysis demonstrating TAID's ability to
prevent mode collapse and empirically show its effectiveness in addressing the
capacity gap while balancing mode averaging and mode collapse. Our
comprehensive experiments demonstrate TAID's superior performance across
various model sizes and architectures in both instruction tuning and
pre-training scenarios. Furthermore, we showcase TAID's practical impact by
developing two state-of-the-art compact foundation models:
TAID-LLM-1.5B for language tasks and TAID-VLM-2B for
vision-language tasks. These results demonstrate TAID's effectiveness in
creating high-performing and efficient models, advancing the development of
more accessible AI technologies.Summary
AI-Generated Summary