Cobra: Estensione di Mamba a Modelli Linguistici Multimodali di Grandi Dimensioni per Inferenza Efficiente

Abstract

Negli ultimi anni, l'applicazione di modelli linguistici multimodali di grandi dimensioni (MLLM) in vari campi ha ottenuto un successo notevole. Tuttavia, come modello di base per molte attività downstream, gli attuali MLLM sono composti dalla ben nota rete Transformer, che presenta una complessità computazionale quadratica meno efficiente. Per migliorare l'efficienza di tali modelli di base, proponiamo Cobra, un MLLM con complessità computazionale lineare. Nello specifico, Cobra integra il modello linguistico efficiente Mamba nella modalità visiva. Inoltre, esploriamo e studiamo vari schemi di fusione modale per creare un Mamba multimodale efficace. Esperimenti estesi dimostrano che (1) Cobra raggiunge prestazioni estremamente competitive rispetto ai metodi all'avanguardia attualmente efficienti dal punto di vista computazionale, come LLaVA-Phi, TinyLLaVA e MobileVLM v2, e offre una velocità maggiore grazie alla modellazione sequenziale lineare di Cobra. (2) Interessante notare che i risultati dei benchmark di previsione chiusi e impegnativi mostrano che Cobra si comporta bene nel superare illusioni visive e giudizi sulle relazioni spaziali. (3) In modo degno di nota, Cobra raggiunge prestazioni paragonabili a LLaVA con circa il 43% del numero di parametri. Renderemo disponibili tutti i codici di Cobra in open-source e speriamo che il metodo proposto possa facilitare future ricerche sui problemi di complessità negli MLLM. La nostra pagina del progetto è disponibile all'indirizzo: https://sites.google.com/view/cobravlm.

English

In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.

Cobra: Estensione di Mamba a Modelli Linguistici Multimodali di Grandi Dimensioni per Inferenza Efficiente

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

Abstract

Support