TAID: Interpolación de Destilación Temporalmente Adaptativa para Transferencia de Conocimiento Eficiente en Modelos de Lenguaje
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
January 28, 2025
Autores: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI
Resumen
Los modelos de lenguaje causales han demostrado capacidades notables, pero su tamaño plantea desafíos significativos para su implementación en entornos con recursos limitados. La destilación de conocimiento, una técnica ampliamente utilizada para transferir conocimiento de un modelo docente grande a un modelo estudiante pequeño, presenta un enfoque prometedor para la compresión de modelos. Un problema importante que persiste radica en las diferencias principales entre los modelos docente y estudiante, a saber, la brecha sustancial de capacidad, el promedio de modo y el colapso de modo, que plantean barreras durante la destilación. Para abordar estos problemas, presentamos la Destilación Interpolada Temporalmente Adaptativa (TAID), un enfoque novedoso de destilación de conocimiento que interpola dinámicamente las distribuciones del estudiante y del docente a través de una distribución intermedia adaptativa, desplazándose gradualmente desde la distribución inicial del estudiante hacia la distribución del docente. Proporcionamos un análisis teórico que demuestra la capacidad de TAID para prevenir el colapso de modo y mostramos empíricamente su eficacia para abordar la brecha de capacidad al mismo tiempo que equilibra el promedio de modo y el colapso de modo. Nuestros experimentos exhaustivos demuestran el rendimiento superior de TAID en varios tamaños y arquitecturas de modelos tanto en escenarios de ajuste de instrucción como de preentrenamiento. Además, presentamos el impacto práctico de TAID al desarrollar dos modelos base compactos de última generación: TAID-LLM-1.5B para tareas de lenguaje y TAID-VLM-2B para tareas de visión-lenguaje. Estos resultados muestran la eficacia de TAID en la creación de modelos eficientes y de alto rendimiento, avanzando en el desarrollo de tecnologías de IA más accesibles.
English
Causal language models have demonstrated remarkable capabilities, but their
size poses significant challenges for deployment in resource-constrained
environments. Knowledge distillation, a widely-used technique for transferring
knowledge from a large teacher model to a small student model, presents a
promising approach for model compression. A significant remaining issue lies in
the major differences between teacher and student models, namely the
substantial capacity gap, mode averaging, and mode collapse, which pose
barriers during distillation. To address these issues, we introduce
Temporally Adaptive Interpolated Distillation (TAID), a novel
knowledge distillation approach that dynamically interpolates student and
teacher distributions through an adaptive intermediate distribution, gradually
shifting from the student's initial distribution towards the teacher's
distribution. We provide a theoretical analysis demonstrating TAID's ability to
prevent mode collapse and empirically show its effectiveness in addressing the
capacity gap while balancing mode averaging and mode collapse. Our
comprehensive experiments demonstrate TAID's superior performance across
various model sizes and architectures in both instruction tuning and
pre-training scenarios. Furthermore, we showcase TAID's practical impact by
developing two state-of-the-art compact foundation models:
TAID-LLM-1.5B for language tasks and TAID-VLM-2B for
vision-language tasks. These results demonstrate TAID's effectiveness in
creating high-performing and efficient models, advancing the development of
more accessible AI technologies.Summary
AI-Generated Summary