LLaVA-MoD: Tornando o LLaVA Pequeno através da Distorção de Conhecimento MoE
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
August 28, 2024
Autores: Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
cs.AI
Resumo
Apresentamos LLaVA-MoD, um novo framework projetado para permitir o treinamento eficiente de Modelos de Linguagem Multimodais em pequena escala (s-MLLM) por meio da destilação de conhecimento de MLLM em grande escala (l-MLLM). Nossa abordagem enfrenta dois desafios fundamentais na destilação de MLLM. Primeiramente, otimizamos a estrutura de rede do s-MLLM integrando uma arquitetura esparsa de Mistura de Especialistas (MoE) no modelo de linguagem, encontrando um equilíbrio entre eficiência computacional e expressividade do modelo. Em segundo lugar, propomos uma estratégia progressiva de transferência de conhecimento para garantir uma migração abrangente de conhecimento. Esta estratégia começa com a destilação de imitação, onde minimizamos a divergência Kullback-Leibler (KL) entre as distribuições de saída para permitir que o modelo aluno emule a compreensão da rede professora. Em seguida, introduzimos a destilação de preferência por meio da Otimização Direta de Preferência (DPO), onde a chave está em tratar o l-MLLM como o modelo de referência. Durante esta fase, a capacidade do s-MLLM de discriminar entre exemplos superiores e inferiores é significativamente aprimorada além do l-MLLM, resultando em um aluno melhor que supera seu professor, especialmente em benchmarks de alucinação. Experimentos extensivos demonstram que o LLaVA-MoD supera os modelos existentes em vários benchmarks multimodais, mantendo um número mínimo de parâmetros ativados e baixos custos computacionais. Notavelmente, o LLaVA-MoD, com apenas 2B de parâmetros ativados, supera o Qwen-VL-Chat-7B em média 8,8% em benchmarks, usando apenas 0,3% dos dados de treinamento e 23% dos parâmetros treináveis. Esses resultados destacam a capacidade do LLaVA-MoD de destilar efetivamente conhecimento abrangente de seu modelo professor, abrindo caminho para o desenvolvimento de MLLMs mais eficientes. O código estará disponível em: https://github.com/shufangxun/LLaVA-MoD.
English
We introduce LLaVA-MoD, a novel framework designed to enable the efficient
training of small-scale Multimodal Language Models (s-MLLM) by distilling
knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental
challenges in MLLM distillation. First, we optimize the network structure of
s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the
language model, striking a balance between computational efficiency and model
expressiveness. Second, we propose a progressive knowledge transfer strategy to
ensure comprehensive knowledge migration. This strategy begins with mimic
distillation, where we minimize the Kullback-Leibler (KL) divergence between
output distributions to enable the student model to emulate the teacher
network's understanding. Following this, we introduce preference distillation
via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM
as the reference model. During this phase, the s-MLLM's ability to discriminate
between superior and inferior examples is significantly enhanced beyond l-MLLM,
leading to a better student that surpasses its teacher, particularly in
hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD
outperforms existing models across various multimodal benchmarks while
maintaining a minimal number of activated parameters and low computational
costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses
Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of
the training data and 23% trainable parameters. These results underscore
LLaVA-MoD's ability to effectively distill comprehensive knowledge from its
teacher model, paving the way for the development of more efficient MLLMs. The
code will be available on: https://github.com/shufangxun/LLaVA-MoD.Summary
AI-Generated Summary