TAID: Interpolação Adaptativa Temporalmente para Transferência Eficiente de Conhecimento em Modelos de Linguagem
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
January 28, 2025
Autores: Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
cs.AI
Resumo
Os modelos de linguagem causais têm demonstrado capacidades notáveis, mas seu tamanho apresenta desafios significativos para implantação em ambientes com recursos limitados. A destilação de conhecimento, uma técnica amplamente utilizada para transferir conhecimento de um modelo professor grande para um modelo aluno pequeno, apresenta uma abordagem promissora para compressão de modelos. Um problema significativo remanescente reside nas grandes diferenças entre os modelos professor e aluno, nomeadamente a grande diferença de capacidade, a média de modo e o colapso de modo, que representam barreiras durante a destilação. Para abordar essas questões, introduzimos a Destilação Interpolada Adaptativa Temporal (TAID), uma abordagem de destilação de conhecimento inovadora que interpola dinamicamente as distribuições do aluno e do professor por meio de uma distribuição intermediária adaptativa, deslocando gradualmente da distribuição inicial do aluno para a distribuição do professor. Fornecemos uma análise teórica demonstrando a capacidade do TAID de evitar o colapso de modo e mostramos empiricamente sua eficácia em lidar com a diferença de capacidade, equilibrando a média de modo e o colapso de modo. Nossos experimentos abrangentes demonstram o desempenho superior do TAID em vários tamanhos e arquiteturas de modelos, tanto em ajuste de instrução quanto em cenários de pré-treinamento. Além disso, demonstramos o impacto prático do TAID ao desenvolver dois modelos fundamentais compactos de última geração: TAID-LLM-1.5B para tarefas de linguagem e TAID-VLM-2B para tarefas de visão e linguagem. Esses resultados demonstram a eficácia do TAID na criação de modelos eficientes e de alto desempenho, avançando o desenvolvimento de tecnologias de IA mais acessíveis.
English
Causal language models have demonstrated remarkable capabilities, but their
size poses significant challenges for deployment in resource-constrained
environments. Knowledge distillation, a widely-used technique for transferring
knowledge from a large teacher model to a small student model, presents a
promising approach for model compression. A significant remaining issue lies in
the major differences between teacher and student models, namely the
substantial capacity gap, mode averaging, and mode collapse, which pose
barriers during distillation. To address these issues, we introduce
Temporally Adaptive Interpolated Distillation (TAID), a novel
knowledge distillation approach that dynamically interpolates student and
teacher distributions through an adaptive intermediate distribution, gradually
shifting from the student's initial distribution towards the teacher's
distribution. We provide a theoretical analysis demonstrating TAID's ability to
prevent mode collapse and empirically show its effectiveness in addressing the
capacity gap while balancing mode averaging and mode collapse. Our
comprehensive experiments demonstrate TAID's superior performance across
various model sizes and architectures in both instruction tuning and
pre-training scenarios. Furthermore, we showcase TAID's practical impact by
developing two state-of-the-art compact foundation models:
TAID-LLM-1.5B for language tasks and TAID-VLM-2B for
vision-language tasks. These results demonstrate TAID's effectiveness in
creating high-performing and efficient models, advancing the development of
more accessible AI technologies.Summary
AI-Generated Summary