TAID: Временно Адаптивное Интерполированное Дистиллирование для Эффективной Передачи Знаний в Языковых Моделях
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
January 28, 2025
Авторы: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI
Аннотация
Причинные языковые модели продемонстрировали выдающиеся возможности, однако их размер создает значительные проблемы для развертывания в ресурсоемких средах. Дистилляция знаний, широко используемая техника передачи знаний от большой модели-учителя к маленькой модели-студенту, представляет собой многообещающий подход для сжатия модели. Одной из значительных оставшихся проблем являются существенные различия между моделями учителя и студента, а именно значительный разрыв в емкости, усреднение режима и коллапс режима, которые создают препятствия во время дистилляции. Для решения этих проблем мы представляем временно адаптивную интерполированную дистилляцию (TAID), новый подход к дистилляции знаний, который динамически интерполирует распределения студента и учителя через адаптивное промежуточное распределение, постепенно смещаясь от начального распределения студента к распределению учителя. Мы предоставляем теоретический анализ, демонстрирующий способность TAID предотвращать коллапс режима, и эмпирически показываем его эффективность в решении разрыва в емкости, сохраняя баланс между усреднением режима и коллапсом режима. Наши комплексные эксперименты демонстрируют превосходную производительность TAID на различных размерах моделей и архитектурах как в сценариях настройки инструкций, так и предварительного обучения. Более того, мы продемонстрировали практическое влияние TAID, разработав две передовые компактные базовые модели: TAID-LLM-1.5B для языковых задач и TAID-VLM-2B для задач видео-языка. Эти результаты демонстрируют эффективность TAID в создании высокопроизводительных и эффективных моделей, способствуя развитию более доступных технологий искусственного интеллекта.
English
Causal language models have demonstrated remarkable capabilities, but their
size poses significant challenges for deployment in resource-constrained
environments. Knowledge distillation, a widely-used technique for transferring
knowledge from a large teacher model to a small student model, presents a
promising approach for model compression. A significant remaining issue lies in
the major differences between teacher and student models, namely the
substantial capacity gap, mode averaging, and mode collapse, which pose
barriers during distillation. To address these issues, we introduce
Temporally Adaptive Interpolated Distillation (TAID), a novel
knowledge distillation approach that dynamically interpolates student and
teacher distributions through an adaptive intermediate distribution, gradually
shifting from the student's initial distribution towards the teacher's
distribution. We provide a theoretical analysis demonstrating TAID's ability to
prevent mode collapse and empirically show its effectiveness in addressing the
capacity gap while balancing mode averaging and mode collapse. Our
comprehensive experiments demonstrate TAID's superior performance across
various model sizes and architectures in both instruction tuning and
pre-training scenarios. Furthermore, we showcase TAID's practical impact by
developing two state-of-the-art compact foundation models:
TAID-LLM-1.5B for language tasks and TAID-VLM-2B for
vision-language tasks. These results demonstrate TAID's effectiveness in
creating high-performing and efficient models, advancing the development of
more accessible AI technologies.Summary
AI-Generated Summary