Dichte Verbinder voor MLLMs
Dense Connector for MLLMs
May 22, 2024
Auteurs: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI
Samenvatting
Benutten we het volledige potentieel van visuele encoders in Multimodale Grote Taalmodellen (MLLMs)? De recente uitstekende prestaties van MLLMs in multimodale interpretatie hebben brede aandacht gekregen van zowel de academische wereld als de industrie. In de huidige race om MLLMs lijkt de focus voornamelijk op de taalkundige kant te liggen. We zien de opkomst van grotere en kwalitatief betere instructiedatasets, evenals de betrokkenheid van grotere LLMs. Toch is er weinig aandacht besteed aan de visuele signalen die door MLLMs worden gebruikt, die vaak worden verondersteld de laatste hoogwaardige kenmerken te zijn die door een bevroren visuele encoder worden geëxtraheerd. In dit artikel introduceren we de Dense Connector - een eenvoudige, effectieve en plug-and-play visie-taal connector die bestaande MLLMs aanzienlijk verbetert door gebruik te maken van multi-layer visuele kenmerken, met minimale extra rekenkosten. Bovendien toont ons model, dat uitsluitend op afbeeldingen is getraind, opmerkelijke zero-shot mogelijkheden in videobegrip. Experimentele resultaten over verschillende visuele encoders, beeldresoluties, schalen van trainingsdatasets, variërende groottes van LLMs (2.7B->70B) en diverse architecturen van MLLMs (bijv. LLaVA en Mini-Gemini) valideren de veelzijdigheid en schaalbaarheid van onze aanpak, waarbij state-of-the-art prestaties worden behaald op 19 beeld- en videobenchmarks. We hopen dat dit werk waardevolle ervaring zal bieden en zal dienen als een basis module voor toekomstige MLLM-ontwikkeling.
English
Do we fully leverage the potential of visual encoder in Multimodal Large
Language Models (MLLMs)? The recent outstanding performance of MLLMs in
multimodal understanding has garnered broad attention from both academia and
industry. In the current MLLM rat race, the focus seems to be predominantly on
the linguistic side. We witness the rise of larger and higher-quality
instruction datasets, as well as the involvement of larger-sized LLMs. Yet,
scant attention has been directed towards the visual signals utilized by MLLMs,
often assumed to be the final high-level features extracted by a frozen visual
encoder. In this paper, we introduce the Dense Connector - a simple, effective,
and plug-and-play vision-language connector that significantly enhances
existing MLLMs by leveraging multi-layer visual features, with minimal
additional computational overhead. Furthermore, our model, trained solely on
images, showcases remarkable zero-shot capabilities in video understanding as
well. Experimental results across various vision encoders, image resolutions,
training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse
architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility
and scalability of our approach, achieving state-of-the-art performance on
across 19 image and video benchmarks. We hope that this work will provide
valuable experience and serve as a basic module for future MLLM development.