ChatPaper.aiChatPaper

MoE-LLaVA: Mezcla de Expertos para Modelos Grandes de Visión y Lenguaje

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

January 29, 2024
Autores: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan
cs.AI

Resumen

Para los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés), escalar el modelo puede mejorar efectivamente el rendimiento. Sin embargo, expandir los parámetros del modelo aumenta significativamente los costos de entrenamiento e inferencia, ya que todos los parámetros del modelo se activan para cada token en el cálculo. En este trabajo, proponemos una novedosa estrategia de entrenamiento llamada MoE-tuning para LVLMs, que permite construir un modelo disperso con un número extraordinario de parámetros pero con un costo computacional constante, abordando efectivamente la degradación del rendimiento típicamente asociada con el aprendizaje multimodal y la dispersión del modelo. Además, presentamos el marco MoE-LLaVA, una arquitectura de LVLM dispersa basada en MoE. Este marco activa únicamente a los k expertos principales a través de enrutadores durante el despliegue, manteniendo inactivos a los expertos restantes. Nuestros extensos experimentos destacan las excelentes capacidades de MoE-LLaVA en comprensión visual y su potencial para reducir las alucinaciones en las salidas del modelo. Notablemente, con solo 3 mil millones de parámetros dispersamente activados, MoE-LLaVA demuestra un rendimiento comparable al LLaVA-1.5-7B en varios conjuntos de datos de comprensión visual e incluso supera al LLaVA-1.5-13B en pruebas de alucinación de objetos. A través de MoE-LLaVA, nuestro objetivo es establecer una línea base para los LVLMs dispersos y proporcionar valiosas ideas para futuras investigaciones en el desarrollo de sistemas de aprendizaje multimodal más eficientes y efectivos. El código está disponible en https://github.com/PKU-YuanGroup/MoE-LLaVA.
English
For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at https://github.com/PKU-YuanGroup/MoE-LLaVA.
PDF544December 15, 2024