LLaVA-MoD : Réduction de la taille de LLaVA via la distillation des connaissances MoE
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
August 28, 2024
Auteurs: Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
cs.AI
Résumé
Nous présentons LLaVA-MoD, un nouveau cadre conçu pour permettre l'entraînement efficace de petits Modèles de Langage Multimodaux (s-MLLM) en distillant les connaissances des grands MLLM (l-MLLM). Notre approche aborde deux défis fondamentaux de la distillation des MLLM. Tout d'abord, nous optimisons la structure du réseau des s-MLLM en intégrant une architecture de Mélange d'Experts (MoE) clairsemés dans le modèle de langage, trouvant un équilibre entre l'efficacité computationnelle et l'expressivité du modèle. Ensuite, nous proposons une stratégie progressive de transfert de connaissances pour garantir une migration complète des connaissances. Cette stratégie commence par la distillation par mimétisme, où nous minimisons la divergence de Kullback-Leibler (KL) entre les distributions de sortie pour permettre au modèle étudiant d'imiter la compréhension du réseau enseignant. Ensuite, nous introduisons la distillation des préférences via l'Optimisation Directe des Préférences (DPO), où la clé réside dans le traitement du l-MLLM comme modèle de référence. Au cours de cette phase, la capacité du s-MLLM à discriminer entre des exemples supérieurs et inférieurs est considérablement améliorée par rapport au l-MLLM, conduisant à un meilleur étudiant qui dépasse son enseignant, en particulier dans les évaluations de l'hallucination. Des expériences approfondies démontrent que LLaVA-MoD surpasse les modèles existants sur diverses évaluations multimodales tout en maintenant un nombre minimal de paramètres activés et des coûts computationnels bas. Remarquablement, LLaVA-MoD, avec seulement 2 milliards de paramètres activés, surpasse Qwen-VL-Chat-7B en moyenne de 8,8 % sur les évaluations, en utilisant seulement 0,3 % des données d'entraînement et 23 % des paramètres entraînables. Ces résultats soulignent la capacité de LLaVA-MoD à distiller efficacement des connaissances complètes de son modèle enseignant, ouvrant la voie au développement de MLLM plus efficaces. Le code sera disponible sur : https://github.com/shufangxun/LLaVA-MoD.
English
We introduce LLaVA-MoD, a novel framework designed to enable the efficient
training of small-scale Multimodal Language Models (s-MLLM) by distilling
knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental
challenges in MLLM distillation. First, we optimize the network structure of
s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the
language model, striking a balance between computational efficiency and model
expressiveness. Second, we propose a progressive knowledge transfer strategy to
ensure comprehensive knowledge migration. This strategy begins with mimic
distillation, where we minimize the Kullback-Leibler (KL) divergence between
output distributions to enable the student model to emulate the teacher
network's understanding. Following this, we introduce preference distillation
via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM
as the reference model. During this phase, the s-MLLM's ability to discriminate
between superior and inferior examples is significantly enhanced beyond l-MLLM,
leading to a better student that surpasses its teacher, particularly in
hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD
outperforms existing models across various multimodal benchmarks while
maintaining a minimal number of activated parameters and low computational
costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses
Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of
the training data and 23% trainable parameters. These results underscore
LLaVA-MoD's ability to effectively distill comprehensive knowledge from its
teacher model, paving the way for the development of more efficient MLLMs. The
code will be available on: https://github.com/shufangxun/LLaVA-MoD.Summary
AI-Generated Summary