ChatPaper.aiChatPaper

Cobra: Erweiterung von Mamba zu einem Multi-Modalen Großen Sprachmodell für Effiziente Inferenz

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

March 21, 2024
Autoren: Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang
cs.AI

Zusammenfassung

In den letzten Jahren hat die Anwendung von multimodalen großen Sprachmodellen (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Allerdings bestehen aktuelle MLLMs, die als Grundmodelle für viele nachgelagerte Aufgaben dienen, aus dem bekannten Transformer-Netzwerk, das eine weniger effiziente quadratische Rechenkomplexität aufweist. Um die Effizienz solcher Grundmodelle zu verbessern, schlagen wir Cobra vor, ein MLLM mit linearer Rechenkomplexität. Konkret integriert Cobra das effiziente Mamba-Sprachmodell in die visuelle Modalität. Darüber hinaus erforschen und untersuchen wir verschiedene Modalitätsverschmelzungsschemata, um ein effektives multimodales Mamba zu erstellen. Umfangreiche Experimente zeigen, dass (1) Cobra eine äußerst wettbewerbsfähige Leistung im Vergleich zu aktuellen recheneffizienten State-of-the-Art-Methoden wie LLaVA-Phi, TinyLLaVA und MobileVLM v2 erzielt und aufgrund des linearen sequenziellen Modellierens von Cobra eine schnellere Geschwindigkeit aufweist. (2) Interessanterweise zeigen die Ergebnisse von anspruchsvollen Closed-Set-Vorhersage-Benchmarks, dass Cobra gut darin ist, visuelle Täuschungen und räumliche Beurteilungen zu überwinden. (3) Bemerkenswert ist, dass Cobra sogar eine vergleichbare Leistung wie LLaVA mit etwa 43% der Anzahl an Parametern erreicht. Wir werden alle Codes von Cobra Open Source machen und hoffen, dass die vorgeschlagene Methode zukünftige Forschung zu Komplexitätsproblemen in MLLM erleichtern kann. Unsere Projektseite ist unter folgendem Link verfügbar: https://sites.google.com/view/cobravlm.
English
In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.

Summary

AI-Generated Summary

PDF362December 15, 2024