MoE-LLaVA: Mistura de Especialistas para Grandes Modelos de Visão e Linguagem
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
January 29, 2024
Autores: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI
Resumo
Para os Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês), escalar o modelo pode efetivamente melhorar o desempenho. No entanto, expandir os parâmetros do modelo aumenta significativamente os custos de treinamento e inferência, já que todos os parâmetros do modelo são ativados para cada token no cálculo. Neste trabalho, propomos uma nova estratégia de treinamento chamada MoE-tuning para LVLMs, que pode construir um modelo esparso com um número extraordinário de parâmetros, mas com um custo computacional constante, e aborda efetivamente a degradação de desempenho tipicamente associada ao aprendizado multimodal e à esparsidade do modelo. Além disso, apresentamos o framework MoE-LLaVA, uma arquitetura de LVLM esparsa baseada em MoE. Esse framework ativa exclusivamente os k melhores especialistas por meio de roteadores durante a implantação, mantendo os demais especialistas inativos. Nossos extensos experimentos destacam as excelentes capacidades do MoE-LLaVA em compreensão visual e seu potencial para reduzir alucinações nas saídas do modelo. Notavelmente, com apenas 3 bilhões de parâmetros esparsamente ativados, o MoE-LLaVA demonstra desempenho comparável ao LLaVA-1.5-7B em vários conjuntos de dados de compreensão visual e até supera o LLaVA-1.5-13B em benchmarks de alucinação de objetos. Por meio do MoE-LLaVA, nosso objetivo é estabelecer uma base para LVLMs esparsos e fornecer insights valiosos para pesquisas futuras no desenvolvimento de sistemas de aprendizado multimodal mais eficientes e eficazes. O código está disponível em https://github.com/PKU-YuanGroup/MoE-LLaVA.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively
improve performance. However, expanding model parameters significantly
increases the training and inferring costs, as all model parameters are
activated for each token in the calculation. In this work, we propose a novel
training strategy MoE-tuning for LVLMs, which can constructing a sparse model
with an outrageous number of parameter but a constant computational cost, and
effectively addresses the performance degradation typically associated with
multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA
framework, a MoE-based sparse LVLM architecture. This framework uniquely
activates only the top-k experts through routers during deployment, keeping the
remaining experts inactive. Our extensive experiments highlight the excellent
capabilities of MoE-LLaVA in visual understanding and its potential to reduce
hallucinations in model outputs. Remarkably, with just 3 billion sparsely
activated parameters, MoE-LLaVA demonstrates performance comparable to the
LLaVA-1.5-7B on various visual understanding datasets and even surpasses the
LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to
establish a baseline for sparse LVLMs and provide valuable insights for future
research in developing more efficient and effective multi-modal learning
systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.