TAID: Временно Адаптивное Интерполированное Дистиллирование для Эффективной Передачи Знаний в Языковых Моделях

Аннотация

Причинные языковые модели продемонстрировали выдающиеся возможности, однако их размер создает значительные проблемы для развертывания в ресурсоемких средах. Дистилляция знаний, широко используемая техника передачи знаний от большой модели-учителя к маленькой модели-студенту, представляет собой многообещающий подход для сжатия модели. Одной из значительных оставшихся проблем являются существенные различия между моделями учителя и студента, а именно значительный разрыв в емкости, усреднение режима и коллапс режима, которые создают препятствия во время дистилляции. Для решения этих проблем мы представляем временно адаптивную интерполированную дистилляцию (TAID), новый подход к дистилляции знаний, который динамически интерполирует распределения студента и учителя через адаптивное промежуточное распределение, постепенно смещаясь от начального распределения студента к распределению учителя. Мы предоставляем теоретический анализ, демонстрирующий способность TAID предотвращать коллапс режима, и эмпирически показываем его эффективность в решении разрыва в емкости, сохраняя баланс между усреднением режима и коллапсом режима. Наши комплексные эксперименты демонстрируют превосходную производительность TAID на различных размерах моделей и архитектурах как в сценариях настройки инструкций, так и предварительного обучения. Более того, мы продемонстрировали практическое влияние TAID, разработав две передовые компактные базовые модели: TAID-LLM-1.5B для языковых задач и TAID-VLM-2B для задач видео-языка. Эти результаты демонстрируют эффективность TAID в создании высокопроизводительных и эффективных моделей, способствуя развитию более доступных технологий искусственного интеллекта.

English

Causal language models have demonstrated remarkable capabilities, but their size poses significant challenges for deployment in resource-constrained environments. Knowledge distillation, a widely-used technique for transferring knowledge from a large teacher model to a small student model, presents a promising approach for model compression. A significant remaining issue lies in the major differences between teacher and student models, namely the substantial capacity gap, mode averaging, and mode collapse, which pose barriers during distillation. To address these issues, we introduce Temporally Adaptive Interpolated Distillation (TAID), a novel knowledge distillation approach that dynamically interpolates student and teacher distributions through an adaptive intermediate distribution, gradually shifting from the student's initial distribution towards the teacher's distribution. We provide a theoretical analysis demonstrating TAID's ability to prevent mode collapse and empirically show its effectiveness in addressing the capacity gap while balancing mode averaging and mode collapse. Our comprehensive experiments demonstrate TAID's superior performance across various model sizes and architectures in both instruction tuning and pre-training scenarios. Furthermore, we showcase TAID's practical impact by developing two state-of-the-art compact foundation models: TAID-LLM-1.5B for language tasks and TAID-VLM-2B for vision-language tasks. These results demonstrate TAID's effectiveness in creating high-performing and efficient models, advancing the development of more accessible AI technologies.

TAID: Временно Адаптивное Интерполированное Дистиллирование для Эффективной Передачи Знаний в Языковых Моделях

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Аннотация

Support