ChatPaper.aiChatPaper

Cobra: Uitbreiding van Mamba naar een Multi-Modale Taalmodel voor Efficiënte Inferentie

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

March 21, 2024
Auteurs: Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang
cs.AI

Samenvatting

De afgelopen jaren heeft de toepassing van multimodale grote taalmodellen (MLLM) in verschillende velden opmerkelijke successen geboekt. Echter, als basismodel voor veel downstream taken bestaan huidige MLLM's uit het bekende Transformer-netwerk, dat een minder efficiënte kwadratische rekencomplexiteit heeft. Om de efficiëntie van dergelijke basismodellen te verbeteren, stellen we Cobra voor, een MLLM met lineaire rekencomplexiteit. Specifiek integreert Cobra het efficiënte Mamba-taalmodel in de visuele modaliteit. Bovendien onderzoeken en bestuderen we verschillende modale fusieschema's om een effectieve multimodale Mamba te creëren. Uitgebreide experimenten tonen aan dat (1) Cobra een uiterst competitieve prestaties behaalt in vergelijking met huidige rekenkundig efficiënte state-of-the-art methoden, zoals LLaVA-Phi, TinyLLaVA en MobileVLM v2, en een hogere snelheid heeft dankzij Cobra's lineaire sequentiële modellering. (2) Interessant genoeg laten de resultaten van uitdagende voorspellingsbenchmarks in gesloten sets zien dat Cobra goed presteert in het overwinnen van visuele illusies en het beoordelen van ruimtelijke relaties. (3) Opmerkelijk is dat Cobra zelfs vergelijkbare prestaties behaalt als LLaVA met ongeveer 43% van het aantal parameters. We zullen alle codes van Cobra openbaar maken en hopen dat de voorgestelde methode toekomstig onderzoek naar complexiteitsproblemen in MLLM kan vergemakkelijken. Onze projectpagina is beschikbaar op: https://sites.google.com/view/cobravlm.
English
In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.
PDF352February 8, 2026