MLLMのための高密度コネクタ
Dense Connector for MLLMs
May 22, 2024
著者: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)において、視覚エンコーダの潜在能力を十分に活用しているだろうか?最近のMLLMのマルチモーダル理解における優れた性能は、学界と産業界の双方から広く注目を集めている。現在のMLLMの激しい競争において、焦点は主に言語側に置かれているようだ。より大規模で高品質な指示データセットの台頭や、より大規模なLLMの参入が目撃されている。しかし、MLLMが利用する視覚信号にはほとんど注意が向けられておらず、凍結された視覚エンコーダによって抽出された最終的な高レベル特徴であると想定されることが多い。本論文では、Dense Connectorを紹介する。これは、多層の視覚特徴を活用することで既存のMLLMを大幅に強化する、シンプルで効果的、かつプラグアンドプレイ可能な視覚言語コネクタであり、追加の計算コストを最小限に抑えている。さらに、画像のみで訓練された我々のモデルは、ビデオ理解においても驚くべきゼロショット能力を示している。様々な視覚エンコーダ、画像解像度、訓練データセットの規模、LLMのサイズ(2.7B->70B)、およびMLLMの多様なアーキテクチャ(例:LLaVAやMini-Gemini)にわたる実験結果は、我々のアプローチの汎用性と拡張性を検証し、19の画像およびビデオベンチマークにおいて最先端の性能を達成している。この研究が、将来のMLLM開発において貴重な経験を提供し、基本的なモジュールとして役立つことを願っている。
English
Do we fully leverage the potential of visual encoder in Multimodal Large
Language Models (MLLMs)? The recent outstanding performance of MLLMs in
multimodal understanding has garnered broad attention from both academia and
industry. In the current MLLM rat race, the focus seems to be predominantly on
the linguistic side. We witness the rise of larger and higher-quality
instruction datasets, as well as the involvement of larger-sized LLMs. Yet,
scant attention has been directed towards the visual signals utilized by MLLMs,
often assumed to be the final high-level features extracted by a frozen visual
encoder. In this paper, we introduce the Dense Connector - a simple, effective,
and plug-and-play vision-language connector that significantly enhances
existing MLLMs by leveraging multi-layer visual features, with minimal
additional computational overhead. Furthermore, our model, trained solely on
images, showcases remarkable zero-shot capabilities in video understanding as
well. Experimental results across various vision encoders, image resolutions,
training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse
architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility
and scalability of our approach, achieving state-of-the-art performance on
across 19 image and video benchmarks. We hope that this work will provide
valuable experience and serve as a basic module for future MLLM development.Summary
AI-Generated Summary