Connettore Denso per MLLM
Dense Connector for MLLMs
May 22, 2024
Autori: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI
Abstract
Stiamo sfruttando appieno il potenziale degli encoder visivi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs)? Le recenti prestazioni eccezionali degli MLLMs nella comprensione multimodale hanno attirato un'ampia attenzione sia dal mondo accademico che dall'industria. Nell'attuale corsa agli MLLMs, l'attenzione sembra essere prevalentemente rivolta al lato linguistico. Assistiamo alla crescita di dataset di istruzioni più grandi e di qualità superiore, nonché all'impiego di LLM di dimensioni maggiori. Tuttavia, poca attenzione è stata rivolta ai segnali visivi utilizzati dagli MLLMs, spesso considerati come le caratteristiche di alto livello estratte da un encoder visivo congelato. In questo articolo, introduciamo il Dense Connector - un connettore visione-linguaggio semplice, efficace e plug-and-play che migliora significativamente gli MLLMs esistenti sfruttando le caratteristiche visive multi-livello, con un sovraccarico computazionale minimo. Inoltre, il nostro modello, addestrato esclusivamente su immagini, dimostra notevoli capacità zero-shot anche nella comprensione dei video. I risultati sperimentali su vari encoder visivi, risoluzioni delle immagini, scale di dataset di addestramento, dimensioni variabili di LLM (2.7B->70B) e diverse architetture di MLLMs (ad esempio, LLaVA e Mini-Gemini) convalidano la versatilità e la scalabilità del nostro approccio, raggiungendo prestazioni all'avanguardia su 19 benchmark di immagini e video. Speriamo che questo lavoro fornisca un'esperienza preziosa e serva come modulo di base per lo sviluppo futuro degli MLLMs.
English
Do we fully leverage the potential of visual encoder in Multimodal Large
Language Models (MLLMs)? The recent outstanding performance of MLLMs in
multimodal understanding has garnered broad attention from both academia and
industry. In the current MLLM rat race, the focus seems to be predominantly on
the linguistic side. We witness the rise of larger and higher-quality
instruction datasets, as well as the involvement of larger-sized LLMs. Yet,
scant attention has been directed towards the visual signals utilized by MLLMs,
often assumed to be the final high-level features extracted by a frozen visual
encoder. In this paper, we introduce the Dense Connector - a simple, effective,
and plug-and-play vision-language connector that significantly enhances
existing MLLMs by leveraging multi-layer visual features, with minimal
additional computational overhead. Furthermore, our model, trained solely on
images, showcases remarkable zero-shot capabilities in video understanding as
well. Experimental results across various vision encoders, image resolutions,
training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse
architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility
and scalability of our approach, achieving state-of-the-art performance on
across 19 image and video benchmarks. We hope that this work will provide
valuable experience and serve as a basic module for future MLLM development.