Dichter Verbinder für mehrsprachige Sprachmodelle mit lernender Tiefe
Dense Connector for MLLMs
May 22, 2024
Autoren: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI
Zusammenfassung
Nutzen wir das volle Potenzial des visuellen Encoders in Multimodalen Großen Sprachmodellen (MLLMs) aus? Die kürzlich herausragende Leistung von MLLMs in der multimodalen Verständnis hat breite Aufmerksamkeit sowohl in der akademischen Welt als auch in der Industrie auf sich gezogen. Im aktuellen Wettlauf der MLLMs liegt der Fokus anscheinend hauptsächlich auf der linguistischen Seite. Wir beobachten den Aufstieg von größeren und qualitativ hochwertigeren Anweisungsdatensätzen sowie die Beteiligung von größeren LLMs. Dennoch wurde nur wenig Aufmerksamkeit auf die visuellen Signale gerichtet, die von MLLMs genutzt werden, die oft als die endgültigen hochrangigen Merkmale angesehen werden, die von einem eingefrorenen visuellen Encoder extrahiert werden. In diesem Paper stellen wir den Dense Connector vor - einen einfachen, effektiven und Plug-and-Play Vision-Sprach-Connector, der bestehende MLLMs signifikant verbessert, indem er mehrschichtige visuelle Merkmale nutzt, mit minimalem zusätzlichen Rechenaufwand. Darüber hinaus zeigt unser Modell, das ausschließlich auf Bildern trainiert wurde, bemerkenswerte Zero-Shot-Fähigkeiten im Verständnis von Videos. Experimentelle Ergebnisse über verschiedene Vision-Encoder, Bildauflösungen, Trainingsdatensatzskalen, unterschiedliche Größen von LLMs (2,7 Mrd. -> 70 Mrd.) und diverse Architekturen von MLLMs (z. B. LLaVA und Mini-Gemini) bestätigen die Vielseitigkeit und Skalierbarkeit unseres Ansatzes und erzielen Spitzenleistungen auf insgesamt 19 Bild- und Video-Benchmarks. Wir hoffen, dass diese Arbeit wertvolle Erfahrungen bietet und als Grundmodul für zukünftige MLLM-Entwicklungen dient.
English
Do we fully leverage the potential of visual encoder in Multimodal Large
Language Models (MLLMs)? The recent outstanding performance of MLLMs in
multimodal understanding has garnered broad attention from both academia and
industry. In the current MLLM rat race, the focus seems to be predominantly on
the linguistic side. We witness the rise of larger and higher-quality
instruction datasets, as well as the involvement of larger-sized LLMs. Yet,
scant attention has been directed towards the visual signals utilized by MLLMs,
often assumed to be the final high-level features extracted by a frozen visual
encoder. In this paper, we introduce the Dense Connector - a simple, effective,
and plug-and-play vision-language connector that significantly enhances
existing MLLMs by leveraging multi-layer visual features, with minimal
additional computational overhead. Furthermore, our model, trained solely on
images, showcases remarkable zero-shot capabilities in video understanding as
well. Experimental results across various vision encoders, image resolutions,
training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse
architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility
and scalability of our approach, achieving state-of-the-art performance on
across 19 image and video benchmarks. We hope that this work will provide
valuable experience and serve as a basic module for future MLLM development.Summary
AI-Generated Summary