MoE-LLaVA: Mezcla de Expertos para Modelos Grandes de Visión y Lenguaje
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
January 29, 2024
Autores: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI
Resumen
Para los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés), escalar el modelo puede mejorar efectivamente el rendimiento. Sin embargo, expandir los parámetros del modelo aumenta significativamente los costos de entrenamiento e inferencia, ya que todos los parámetros del modelo se activan para cada token en el cálculo. En este trabajo, proponemos una novedosa estrategia de entrenamiento llamada MoE-tuning para LVLMs, que permite construir un modelo disperso con un número extraordinario de parámetros pero con un costo computacional constante, abordando efectivamente la degradación del rendimiento típicamente asociada con el aprendizaje multimodal y la dispersión del modelo. Además, presentamos el marco MoE-LLaVA, una arquitectura de LVLM dispersa basada en MoE. Este marco activa únicamente a los k expertos principales a través de enrutadores durante el despliegue, manteniendo inactivos a los expertos restantes. Nuestros extensos experimentos destacan las excelentes capacidades de MoE-LLaVA en comprensión visual y su potencial para reducir las alucinaciones en las salidas del modelo. Notablemente, con solo 3 mil millones de parámetros dispersamente activados, MoE-LLaVA demuestra un rendimiento comparable al LLaVA-1.5-7B en varios conjuntos de datos de comprensión visual e incluso supera al LLaVA-1.5-13B en pruebas de alucinación de objetos. A través de MoE-LLaVA, nuestro objetivo es establecer una línea base para los LVLMs dispersos y proporcionar valiosas ideas para futuras investigaciones en el desarrollo de sistemas de aprendizaje multimodal más eficientes y efectivos. El código está disponible en https://github.com/PKU-YuanGroup/MoE-LLaVA.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively
improve performance. However, expanding model parameters significantly
increases the training and inferring costs, as all model parameters are
activated for each token in the calculation. In this work, we propose a novel
training strategy MoE-tuning for LVLMs, which can constructing a sparse model
with an outrageous number of parameter but a constant computational cost, and
effectively addresses the performance degradation typically associated with
multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA
framework, a MoE-based sparse LVLM architecture. This framework uniquely
activates only the top-k experts through routers during deployment, keeping the
remaining experts inactive. Our extensive experiments highlight the excellent
capabilities of MoE-LLaVA in visual understanding and its potential to reduce
hallucinations in model outputs. Remarkably, with just 3 billion sparsely
activated parameters, MoE-LLaVA demonstrates performance comparable to the
LLaVA-1.5-7B on various visual understanding datasets and even surpasses the
LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to
establish a baseline for sparse LVLMs and provide valuable insights for future
research in developing more efficient and effective multi-modal learning
systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.