Connecteur Dense pour MLLMs
Dense Connector for MLLMs
May 22, 2024
Auteurs: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI
Résumé
Exploitons-nous pleinement le potentiel des encodeurs visuels dans les modèles de langage multimodaux de grande taille (MLLMs) ? Les performances exceptionnelles récentes des MLLMs dans la compréhension multimodale ont suscité une attention considérable tant dans le milieu académique que dans l'industrie. Dans la course effrénée actuelle autour des MLLMs, l'accent semble être principalement mis sur l'aspect linguistique. Nous assistons à l'émergence de jeux de données d'instructions plus vastes et de meilleure qualité, ainsi qu'à l'intégration de modèles de langage de plus en plus volumineux. Pourtant, peu d'attention a été accordée aux signaux visuels utilisés par les MLLMs, souvent supposés être les caractéristiques de haut niveau finales extraites par un encodeur visuel figé. Dans cet article, nous présentons le Dense Connector - un connecteur vision-langage simple, efficace et prêt à l'emploi qui améliore significativement les MLLMs existants en exploitant des caractéristiques visuelles multi-couches, avec un surcoût computationnel minimal. De plus, notre modèle, entraîné uniquement sur des images, démontre des capacités remarquables en compréhension vidéo en mode zero-shot. Les résultats expérimentaux obtenus avec divers encodeurs visuels, résolutions d'images, échelles de jeux de données d'entraînement, tailles variables de modèles de langage (2,7B->70B) et architectures diverses de MLLMs (par exemple, LLaVA et Mini-Gemini) valident la polyvalence et l'évolutivité de notre approche, atteignant des performances de pointe sur 19 benchmarks d'images et de vidéos. Nous espérons que ce travail fournira une expérience précieuse et servira de module de base pour le développement futur des MLLMs.
English
Do we fully leverage the potential of visual encoder in Multimodal Large
Language Models (MLLMs)? The recent outstanding performance of MLLMs in
multimodal understanding has garnered broad attention from both academia and
industry. In the current MLLM rat race, the focus seems to be predominantly on
the linguistic side. We witness the rise of larger and higher-quality
instruction datasets, as well as the involvement of larger-sized LLMs. Yet,
scant attention has been directed towards the visual signals utilized by MLLMs,
often assumed to be the final high-level features extracted by a frozen visual
encoder. In this paper, we introduce the Dense Connector - a simple, effective,
and plug-and-play vision-language connector that significantly enhances
existing MLLMs by leveraging multi-layer visual features, with minimal
additional computational overhead. Furthermore, our model, trained solely on
images, showcases remarkable zero-shot capabilities in video understanding as
well. Experimental results across various vision encoders, image resolutions,
training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse
architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility
and scalability of our approach, achieving state-of-the-art performance on
across 19 image and video benchmarks. We hope that this work will provide
valuable experience and serve as a basic module for future MLLM development.Summary
AI-Generated Summary