ChatPaper.aiChatPaper

MLLM을 위한 고밀도 커넥터

Dense Connector for MLLMs

May 22, 2024
저자: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI

초록

다중모드 대형 언어 모델(MLLM)에서 시각 인코더의 잠재력을 충분히 활용하고 있는가? 최근 MLLM의 다중모드 이해 능력에서의 뛰어난 성과는 학계와 산업계 모두로부터 폭넓은 관심을 받고 있다. 현재 MLLM 경쟁에서 초점은 주로 언어 측면에 맞춰져 있다. 더 크고 고품질의 지시 데이터셋의 등장과 더 큰 규모의 LLM의 참여를 목격하고 있지만, MLLM이 활용하는 시각 신호에 대한 관심은 상대적으로 적다. 이는 종종 고정된 시각 인코더에 의해 추출된 최종 고수준 특징으로 간주된다. 본 논문에서는 다층 시각 특징을 활용하여 기존 MLLM을 크게 향상시키는 간단하고 효과적이며 플러그 앤 플레이 방식의 시각-언어 연결자인 Dense Connector를 소개한다. 이는 최소한의 추가 계산 오버헤드만을 요구한다. 또한, 이미지로만 훈련된 우리의 모델은 비디오 이해에서도 놀라운 제로샷 능력을 보여준다. 다양한 시각 인코더, 이미지 해상도, 훈련 데이터셋 규모, 다양한 크기의 LLM(2.7B->70B), 그리고 다양한 MLLM 아키텍처(예: LLaVA 및 Mini-Gemini)에 걸친 실험 결과는 우리 접근법의 다양성과 확장성을 검증하며, 19개의 이미지 및 비디오 벤치마크에서 최첨단 성능을 달성했다. 이 연구가 향후 MLLM 개발에 유용한 경험을 제공하고 기본 모듈로 활용되기를 바란다.
English
Do we fully leverage the potential of visual encoder in Multimodal Large Language Models (MLLMs)? The recent outstanding performance of MLLMs in multimodal understanding has garnered broad attention from both academia and industry. In the current MLLM rat race, the focus seems to be predominantly on the linguistic side. We witness the rise of larger and higher-quality instruction datasets, as well as the involvement of larger-sized LLMs. Yet, scant attention has been directed towards the visual signals utilized by MLLMs, often assumed to be the final high-level features extracted by a frozen visual encoder. In this paper, we introduce the Dense Connector - a simple, effective, and plug-and-play vision-language connector that significantly enhances existing MLLMs by leveraging multi-layer visual features, with minimal additional computational overhead. Furthermore, our model, trained solely on images, showcases remarkable zero-shot capabilities in video understanding as well. Experimental results across various vision encoders, image resolutions, training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility and scalability of our approach, achieving state-of-the-art performance on across 19 image and video benchmarks. We hope that this work will provide valuable experience and serve as a basic module for future MLLM development.

Summary

AI-Generated Summary

PDF254December 15, 2024