MoE-LLaVA: Miscela di Esperti per Modelli Linguistico-Visuali di Grande Scala
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
January 29, 2024
Autori: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI
Abstract
Per i Large Vision-Language Models (LVLM), il ridimensionamento del modello può migliorare efficacemente le prestazioni. Tuttavia, l'espansione dei parametri del modello aumenta significativamente i costi di addestramento e inferenza, poiché tutti i parametri del modello vengono attivati per ogni token nel calcolo. In questo lavoro, proponiamo una nuova strategia di addestramento, MoE-tuning, per i LVLM, che consente di costruire un modello sparso con un numero straordinario di parametri ma con un costo computazionale costante, affrontando efficacemente il degrado delle prestazioni tipicamente associato all'apprendimento multimodale e alla sparsità del modello. Inoltre, presentiamo il framework MoE-LLaVA, un'architettura LVLM sparsa basata su MoE. Questo framework attiva in modo univoco solo i top-k esperti attraverso i router durante il deployment, mantenendo inattivi i restanti esperti. I nostri ampi esperimenti evidenziano le eccellenti capacità di MoE-LLaVA nella comprensione visiva e il suo potenziale nel ridurre le allucinazioni negli output del modello. Notevolmente, con soli 3 miliardi di parametri attivati in modo sparso, MoE-LLaVA dimostra prestazioni paragonabili a LLaVA-1.5-7B su vari dataset di comprensione visiva e supera persino LLaVA-1.5-13B nei benchmark di allucinazione degli oggetti. Attraverso MoE-LLaVA, miriamo a stabilire un baseline per i LVLM sparsi e fornire spunti preziosi per la ricerca futura nello sviluppo di sistemi di apprendimento multimodale più efficienti ed efficaci. Il codice è rilasciato su https://github.com/PKU-YuanGroup/MoE-LLaVA.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively
improve performance. However, expanding model parameters significantly
increases the training and inferring costs, as all model parameters are
activated for each token in the calculation. In this work, we propose a novel
training strategy MoE-tuning for LVLMs, which can constructing a sparse model
with an outrageous number of parameter but a constant computational cost, and
effectively addresses the performance degradation typically associated with
multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA
framework, a MoE-based sparse LVLM architecture. This framework uniquely
activates only the top-k experts through routers during deployment, keeping the
remaining experts inactive. Our extensive experiments highlight the excellent
capabilities of MoE-LLaVA in visual understanding and its potential to reduce
hallucinations in model outputs. Remarkably, with just 3 billion sparsely
activated parameters, MoE-LLaVA demonstrates performance comparable to the
LLaVA-1.5-7B on various visual understanding datasets and even surpasses the
LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to
establish a baseline for sparse LVLMs and provide valuable insights for future
research in developing more efficient and effective multi-modal learning
systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.