ChatPaper.aiChatPaper

Cobra : Extension de Mamba vers un modèle de langage multimodal à grande échelle pour une inférence efficace

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

March 21, 2024
Auteurs: Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang
cs.AI

Résumé

Ces dernières années, l'application des modèles de langage multimodaux de grande taille (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, les MLLM actuels sont composés du célèbre réseau Transformer, qui présente une complexité de calcul quadratique moins efficace. Pour améliorer l'efficacité de ces modèles fondamentaux, nous proposons Cobra, un MLLM à complexité de calcul linéaire. Plus précisément, Cobra intègre le modèle de langage Mamba, réputé pour son efficacité, dans la modalité visuelle. De plus, nous explorons et étudions divers schémas de fusion modale pour créer un Mamba multimodal efficace. Des expériences approfondies démontrent que (1) Cobra atteint des performances extrêmement compétitives par rapport aux méthodes actuelles les plus efficaces en termes de calcul, telles que LLaVA-Phi, TinyLLaVA et MobileVLM v2, tout en étant plus rapide grâce à la modélisation séquentielle linéaire de Cobra. (2) Fait intéressant, les résultats des benchmarks de prédiction difficiles en ensemble fermé montrent que Cobra excelle à surmonter les illusions visuelles et à juger les relations spatiales. (3) Notamment, Cobra atteint même des performances comparables à LLaVA avec environ 43 % du nombre de paramètres. Nous rendrons tous les codes de Cobra open-source et espérons que la méthode proposée pourra faciliter les recherches futures sur les problèmes de complexité dans les MLLM. Notre page de projet est disponible à l'adresse : https://sites.google.com/view/cobravlm.
English
In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.

Summary

AI-Generated Summary

PDF362December 15, 2024