ChatPaper.aiChatPaper

MoE-LLaVA: Mistura de Especialistas para Grandes Modelos de Visão e Linguagem

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

January 29, 2024
Autores: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI

Resumo

Para os Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês), escalar o modelo pode efetivamente melhorar o desempenho. No entanto, expandir os parâmetros do modelo aumenta significativamente os custos de treinamento e inferência, já que todos os parâmetros do modelo são ativados para cada token no cálculo. Neste trabalho, propomos uma nova estratégia de treinamento chamada MoE-tuning para LVLMs, que pode construir um modelo esparso com um número extraordinário de parâmetros, mas com um custo computacional constante, e aborda efetivamente a degradação de desempenho tipicamente associada ao aprendizado multimodal e à esparsidade do modelo. Além disso, apresentamos o framework MoE-LLaVA, uma arquitetura de LVLM esparsa baseada em MoE. Esse framework ativa exclusivamente os k melhores especialistas por meio de roteadores durante a implantação, mantendo os demais especialistas inativos. Nossos extensos experimentos destacam as excelentes capacidades do MoE-LLaVA em compreensão visual e seu potencial para reduzir alucinações nas saídas do modelo. Notavelmente, com apenas 3 bilhões de parâmetros esparsamente ativados, o MoE-LLaVA demonstra desempenho comparável ao LLaVA-1.5-7B em vários conjuntos de dados de compreensão visual e até supera o LLaVA-1.5-13B em benchmarks de alucinação de objetos. Por meio do MoE-LLaVA, nosso objetivo é estabelecer uma base para LVLMs esparsos e fornecer insights valiosos para pesquisas futuras no desenvolvimento de sistemas de aprendizado multimodal mais eficientes e eficazes. O código está disponível em https://github.com/PKU-YuanGroup/MoE-LLaVA.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.
PDF534December 15, 2024