ChatPaper.aiChatPaper

Cobra: Expandindo o Mamba para um Modelo de Linguagem Multimodal de Grande Escala para Inferência Eficiente

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

March 21, 2024
Autores: Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang
cs.AI

Resumo

Nos últimos anos, a aplicação de modelos de linguagem multimodal de grande escala (MLLM) em diversos campos alcançou sucesso notável. No entanto, como modelo base para muitas tarefas subsequentes, os MLLMs atuais são compostos pela conhecida rede Transformer, que possui uma complexidade computacional quadrática menos eficiente. Para melhorar a eficiência desses modelos básicos, propomos o Cobra, um MLLM com complexidade computacional linear. Especificamente, o Cobra integra o eficiente modelo de linguagem Mamba na modalidade visual. Além disso, exploramos e estudamos diversos esquemas de fusão modal para criar um Mamba multimodal eficaz. Experimentos extensivos demonstram que (1) o Cobra alcança um desempenho extremamente competitivo em relação aos métodos atuais mais eficientes em termos computacionais, como LLaVA-Phi, TinyLLaVA e MobileVLM v2, e possui uma velocidade maior devido à modelagem sequencial linear do Cobra. (2) Curiosamente, os resultados de benchmarks desafiadores de previsão em conjuntos fechados mostram que o Cobra se sai bem em superar ilusões visuais e julgamentos de relações espaciais. (3) Notavelmente, o Cobra até mesmo alcança um desempenho comparável ao LLaVA com cerca de 43% do número de parâmetros. Tornaremos todos os códigos do Cobra de código aberto e esperamos que o método proposto possa facilitar pesquisas futuras sobre problemas de complexidade em MLLM. Nossa página do projeto está disponível em: https://sites.google.com/view/cobravlm.
English
In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.
PDF352February 8, 2026