Conector Denso para MLLMs
Dense Connector for MLLMs
May 22, 2024
Autores: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI
Resumen
¿Estamos aprovechando plenamente el potencial del codificador visual en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs)? El reciente desempeño sobresaliente de los MLLMs en la comprensión multimodal ha captado una amplia atención tanto en la academia como en la industria. En la actual carrera por desarrollar MLLMs, el enfoque parece estar predominantemente en el aspecto lingüístico. Observamos el surgimiento de conjuntos de datos de instrucción más grandes y de mayor calidad, así como la participación de LLMs de mayor tamaño. Sin embargo, se ha prestado poca atención a las señales visuales utilizadas por los MLLMs, que a menudo se asumen como las características de alto nivel finales extraídas por un codificador visual congelado. En este artículo, presentamos el Conector Denso, un conector visión-lenguaje simple, efectivo y plug-and-play que mejora significativamente los MLLMs existentes al aprovechar características visuales multicapa, con un mínimo costo computacional adicional. Además, nuestro modelo, entrenado únicamente con imágenes, muestra capacidades notables de comprensión de video en modo zero-shot. Los resultados experimentales en varios codificadores visuales, resoluciones de imagen, escalas de conjuntos de datos de entrenamiento, tamaños variables de LLMs (2.7B->70B) y diversas arquitecturas de MLLMs (por ejemplo, LLaVA y Mini-Gemini) validan la versatilidad y escalabilidad de nuestro enfoque, logrando un rendimiento de vanguardia en 19 benchmarks de imagen y video. Esperamos que este trabajo proporcione una experiencia valiosa y sirva como un módulo básico para el desarrollo futuro de MLLMs.
English
Do we fully leverage the potential of visual encoder in Multimodal Large
Language Models (MLLMs)? The recent outstanding performance of MLLMs in
multimodal understanding has garnered broad attention from both academia and
industry. In the current MLLM rat race, the focus seems to be predominantly on
the linguistic side. We witness the rise of larger and higher-quality
instruction datasets, as well as the involvement of larger-sized LLMs. Yet,
scant attention has been directed towards the visual signals utilized by MLLMs,
often assumed to be the final high-level features extracted by a frozen visual
encoder. In this paper, we introduce the Dense Connector - a simple, effective,
and plug-and-play vision-language connector that significantly enhances
existing MLLMs by leveraging multi-layer visual features, with minimal
additional computational overhead. Furthermore, our model, trained solely on
images, showcases remarkable zero-shot capabilities in video understanding as
well. Experimental results across various vision encoders, image resolutions,
training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse
architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility
and scalability of our approach, achieving state-of-the-art performance on
across 19 image and video benchmarks. We hope that this work will provide
valuable experience and serve as a basic module for future MLLM development.Summary
AI-Generated Summary