ChatPaper.aiChatPaper

MoE-LLaVA: Mixture of Experts voor Grote Visueel-Taalmodellen

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

January 29, 2024
Auteurs: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI

Samenvatting

Voor Large Vision-Language Models (LVLMs) kan het schalen van het model de prestaties effectief verbeteren. Het uitbreiden van modelparameters verhoogt echter aanzienlijk de trainings- en inferentiekosten, aangezien alle modelparameters voor elke token in de berekening worden geactiveerd. In dit werk stellen we een nieuwe trainingsstrategie voor, genaamd MoE-tuning voor LVLMs, waarmee een spaarzaam model kan worden geconstrueerd met een buitensporig aantal parameters maar met constante rekenkosten, en die effectief de prestatievermindering aanpakt die typisch wordt geassocieerd met multi-modale learning en modelsparsity. Verder presenteren we het MoE-LLaVA-framework, een op MoE gebaseerde spaarzame LVLM-architectuur. Dit framework activeert uniek alleen de top-k experts via routers tijdens de implementatie, terwijl de overige experts inactief blijven. Onze uitgebreide experimenten benadrukken de uitstekende capaciteiten van MoE-LLaVA in visueel begrip en het potentieel om hallucinaties in modeloutputs te verminderen. Opmerkelijk is dat MoE-LLaVA, met slechts 3 miljard spaarzaam geactiveerde parameters, prestaties laat zien die vergelijkbaar zijn met de LLaVA-1.5-7B op verschillende visuele begripdatasets en zelfs de LLaVA-1.5-13B overtreft in benchmarks voor objecthallucinaties. Met MoE-LLaVA streven we ernaar een basislijn te vestigen voor spaarzame LVLMs en waardevolle inzichten te bieden voor toekomstig onderzoek naar de ontwikkeling van efficiëntere en effectievere multi-modale leer systemen. De code is vrijgegeven op https://github.com/PKU-YuanGroup/MoE-LLaVA.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.
PDF534December 15, 2024