Cobra: Extensión de Mamba a Modelos de Lenguaje Multimodales de Gran Escala para Inferencia Eficiente
Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
March 21, 2024
Autores: Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang
cs.AI
Resumen
En los últimos años, la aplicación de modelos de lenguaje multimodal de gran escala (MLLM) en diversos campos ha logrado un éxito notable. Sin embargo, como modelo base para muchas tareas posteriores, los MLLM actuales están compuestos por la conocida red Transformer, que tiene una complejidad computacional cuadrática menos eficiente. Para mejorar la eficiencia de estos modelos básicos, proponemos Cobra, un MLLM con complejidad computacional lineal. Específicamente, Cobra integra el eficiente modelo de lenguaje Mamba en la modalidad visual. Además, exploramos y estudiamos varios esquemas de fusión modal para crear un Mamba multimodal efectivo. Experimentos exhaustivos demuestran que (1) Cobra logra un rendimiento extremadamente competitivo con los métodos actuales más eficientes computacionalmente, como LLaVA-Phi, TinyLLaVA y MobileVLM v2, y tiene una velocidad más rápida debido al modelado secuencial lineal de Cobra. (2) Curiosamente, los resultados de los puntos de referencia de predicción desafiantes de conjunto cerrado muestran que Cobra se desempeña bien en superar ilusiones visuales y juicios de relaciones espaciales. (3) Notablemente, Cobra incluso alcanza un rendimiento comparable a LLaVA con aproximadamente el 43% del número de parámetros. Haremos que todos los códigos de Cobra sean de código abierto y esperamos que el método propuesto pueda facilitar futuras investigaciones sobre problemas de complejidad en MLLM. Nuestra página del proyecto está disponible en: https://sites.google.com/view/cobravlm.
English
In recent years, the application of multimodal large language models (MLLM)
in various fields has achieved remarkable success. However, as the foundation
model for many downstream tasks, current MLLMs are composed of the well-known
Transformer network, which has a less efficient quadratic computation
complexity. To improve the efficiency of such basic models, we propose Cobra, a
linear computational complexity MLLM. Specifically, Cobra integrates the
efficient Mamba language model into the visual modality. Moreover, we explore
and study various modal fusion schemes to create an effective multi-modal
Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely
competitive performance with current computationally efficient state-of-the-art
methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster
speed due to Cobra's linear sequential modeling. (2) Interestingly, the results
of closed-set challenging prediction benchmarks show that Cobra performs well
in overcoming visual illusions and spatial relationship judgments. (3) Notably,
Cobra even achieves comparable performance to LLaVA with about 43% of the
number of parameters. We will make all codes of Cobra open-source and hope that
the proposed method can facilitate future research on complexity problems in
MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.Summary
AI-Generated Summary