Кобра: Расширение Мамбы до мультимодальной крупномасштабной языковой модели для эффективного вывода
Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
March 21, 2024
Авторы: Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang
cs.AI
Аннотация
В последние годы применение мультимодальных крупных языковых моделей (MLLM) в различных областях достигло замечательных успехов. Однако в качестве базовой модели для многих последующих задач текущие MLLM состоят из хорошо известной сети Transformer, которая имеет менее эффективную квадратичную вычислительную сложность. Для улучшения эффективности таких базовых моделей мы предлагаем Cobra, MLLM с линейной вычислительной сложностью. Конкретно, Cobra интегрирует эффективную языковую модель Mamba в визуальную модальность. Более того, мы исследуем и изучаем различные схемы модального объединения для создания эффективной мультимодальной модели Mamba. Обширные эксперименты показывают, что (1) Cobra достигает чрезвычайно конкурентоспособных результатов с текущими вычислительно эффективными передовыми методами, например, LLaVA-Phi, TinyLLaVA и MobileVLM v2, и обладает более быстрой скоростью из-за линейного последовательного моделирования Cobra. (2) Интересно, результаты закрытых испытаний сложных прогностических бенчмарков показывают, что Cobra хорошо справляется с визуальными иллюзиями и оценками пространственных отношений. (3) Следует отметить, что Cobra даже достигает сопоставимых результатов с LLaVA приблизительно с 43% количества параметров. Мы сделаем все коды Cobra общедоступными и надеемся, что предложенный метод сможет способствовать будущим исследованиям проблем сложности в MLLM. Наша страница проекта доступна по адресу: https://sites.google.com/view/cobravlm.
English
In recent years, the application of multimodal large language models (MLLM)
in various fields has achieved remarkable success. However, as the foundation
model for many downstream tasks, current MLLMs are composed of the well-known
Transformer network, which has a less efficient quadratic computation
complexity. To improve the efficiency of such basic models, we propose Cobra, a
linear computational complexity MLLM. Specifically, Cobra integrates the
efficient Mamba language model into the visual modality. Moreover, we explore
and study various modal fusion schemes to create an effective multi-modal
Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely
competitive performance with current computationally efficient state-of-the-art
methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster
speed due to Cobra's linear sequential modeling. (2) Interestingly, the results
of closed-set challenging prediction benchmarks show that Cobra performs well
in overcoming visual illusions and spatial relationship judgments. (3) Notably,
Cobra even achieves comparable performance to LLaVA with about 43% of the
number of parameters. We will make all codes of Cobra open-source and hope that
the proposed method can facilitate future research on complexity problems in
MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.Summary
AI-Generated Summary