Conector Densos para MLLMs
Dense Connector for MLLMs
May 22, 2024
Autores: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI
Resumo
Estamos a aproveitar plenamente o potencial do codificador visual nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs)? O desempenho excepcional recente dos MLLMs na compreensão multimodal tem atraído ampla atenção tanto da academia quanto da indústria. Na atual corrida pelos MLLMs, o foco parece estar predominantemente no aspecto linguístico. Testemunhamos o surgimento de conjuntos de dados de instrução maiores e de maior qualidade, bem como o envolvimento de LLMs de maior dimensão. No entanto, pouca atenção tem sido direcionada para os sinais visuais utilizados pelos MLLMs, frequentemente assumidos como sendo as características de alto nível finais extraídas por um codificador visual congelado. Neste artigo, introduzimos o Conector Denso - um conector visão-linguagem simples, eficaz e plug-and-play que melhora significativamente os MLLMs existentes ao aproveitar características visuais multicamadas, com um mínimo de sobrecarga computacional adicional. Além disso, o nosso modelo, treinado exclusivamente em imagens, demonstra capacidades notáveis de zero-shot na compreensão de vídeos. Resultados experimentais em vários codificadores visuais, resoluções de imagem, escalas de conjuntos de dados de treino, tamanhos variados de LLMs (2.7B->70B) e diversas arquiteturas de MLLMs (por exemplo, LLaVA e Mini-Gemini) validam a versatilidade e escalabilidade da nossa abordagem, alcançando desempenho de ponta em 19 benchmarks de imagem e vídeo. Esperamos que este trabalho forneça uma experiência valiosa e sirva como um módulo básico para o desenvolvimento futuro de MLLMs.
English
Do we fully leverage the potential of visual encoder in Multimodal Large
Language Models (MLLMs)? The recent outstanding performance of MLLMs in
multimodal understanding has garnered broad attention from both academia and
industry. In the current MLLM rat race, the focus seems to be predominantly on
the linguistic side. We witness the rise of larger and higher-quality
instruction datasets, as well as the involvement of larger-sized LLMs. Yet,
scant attention has been directed towards the visual signals utilized by MLLMs,
often assumed to be the final high-level features extracted by a frozen visual
encoder. In this paper, we introduce the Dense Connector - a simple, effective,
and plug-and-play vision-language connector that significantly enhances
existing MLLMs by leveraging multi-layer visual features, with minimal
additional computational overhead. Furthermore, our model, trained solely on
images, showcases remarkable zero-shot capabilities in video understanding as
well. Experimental results across various vision encoders, image resolutions,
training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse
architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility
and scalability of our approach, achieving state-of-the-art performance on
across 19 image and video benchmarks. We hope that this work will provide
valuable experience and serve as a basic module for future MLLM development.