MoE-LLaVA : Mélange d'Experts pour les Grands Modèles Vision-Langage
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
January 29, 2024
Auteurs: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI
Résumé
Pour les grands modèles vision-langage (LVLMs), l'augmentation de la taille du modèle peut efficacement améliorer les performances. Cependant, l'expansion des paramètres du modèle augmente considérablement les coûts d'entraînement et d'inférence, car tous les paramètres du modèle sont activés pour chaque token dans le calcul. Dans ce travail, nous proposons une nouvelle stratégie d'entraînement appelée MoE-tuning pour les LVLMs, qui permet de construire un modèle parcimonieux avec un nombre colossal de paramètres tout en maintenant un coût de calcul constant, et qui résout efficacement la dégradation des performances généralement associée à l'apprentissage multimodal et à la parcimonie des modèles. De plus, nous présentons le framework MoE-LLaVA, une architecture de LVLM parcimonieux basée sur MoE. Ce framework active uniquement les k meilleurs experts via des routeurs pendant le déploiement, laissant les autres experts inactifs. Nos expériences approfondies mettent en évidence les excellentes capacités de MoE-LLaVA en compréhension visuelle et son potentiel à réduire les hallucinations dans les sorties du modèle. Remarquablement, avec seulement 3 milliards de paramètres activés de manière parcimonieuse, MoE-LLaVA démontre des performances comparables à celles de LLaVA-1.5-7B sur divers ensembles de données de compréhension visuelle et dépasse même LLaVA-1.5-13B dans les benchmarks d'hallucination d'objets. À travers MoE-LLaVA, nous visons à établir une référence pour les LVLMs parcimonieux et à fournir des insights précieux pour les recherches futures visant à développer des systèmes d'apprentissage multimodal plus efficaces et performants. Le code est disponible à l'adresse suivante : https://github.com/PKU-YuanGroup/MoE-LLaVA.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively
improve performance. However, expanding model parameters significantly
increases the training and inferring costs, as all model parameters are
activated for each token in the calculation. In this work, we propose a novel
training strategy MoE-tuning for LVLMs, which can constructing a sparse model
with an outrageous number of parameter but a constant computational cost, and
effectively addresses the performance degradation typically associated with
multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA
framework, a MoE-based sparse LVLM architecture. This framework uniquely
activates only the top-k experts through routers during deployment, keeping the
remaining experts inactive. Our extensive experiments highlight the excellent
capabilities of MoE-LLaVA in visual understanding and its potential to reduce
hallucinations in model outputs. Remarkably, with just 3 billion sparsely
activated parameters, MoE-LLaVA demonstrates performance comparable to the
LLaVA-1.5-7B on various visual understanding datasets and even surpasses the
LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to
establish a baseline for sparse LVLMs and provide valuable insights for future
research in developing more efficient and effective multi-modal learning
systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.