Плотный коннектор для многоязычных языковых моделей.
Dense Connector for MLLMs
May 22, 2024
Авторы: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
cs.AI
Аннотация
Полностью ли мы используем потенциал визуального кодера в Мультимодальных Больших Языковых Моделях (MLLM)? Недавние выдающиеся результаты MLLM в мультимодальном понимании привлекли широкое внимание как из академического сообщества, так и из индустрии. В текущей гонке за MLLM основное внимание кажется сосредоточенным в основном на лингвистической стороне. Мы наблюдаем появление более крупных и высококачественных наборов инструкций, а также участие более крупных LLM. Тем не менее, мало внимания уделяется визуальным сигналам, используемым MLLM, часто предполагается, что это конечные высокоуровневые признаки, извлеченные замороженным визуальным кодером. В данной статье мы представляем Плотный Коннектор - простой, эффективный и готовый к использованию визуально-языковой коннектор, который значительно улучшает существующие MLLM за счет использования многослойных визуальных признаков с минимальными дополнительными вычислительными затратами. Более того, наша модель, обученная исключительно на изображениях, демонстрирует замечательные возможности нулевого обучения в понимании видео. Экспериментальные результаты на различных визуальных кодерах, разрешениях изображений, масштабах наборов данных для обучения, различных размерах LLM (2,7 млрд -> 70 млрд) и различных архитектурах MLLM (например, LLaVA и Mini-Gemini) подтверждают гибкость и масштабируемость нашего подхода, достигая передовых результатов на 19 изображениях и видео-тестах. Мы надеемся, что это исследование предоставит ценный опыт и послужит базовым модулем для будущего развития MLLM.
English
Do we fully leverage the potential of visual encoder in Multimodal Large
Language Models (MLLMs)? The recent outstanding performance of MLLMs in
multimodal understanding has garnered broad attention from both academia and
industry. In the current MLLM rat race, the focus seems to be predominantly on
the linguistic side. We witness the rise of larger and higher-quality
instruction datasets, as well as the involvement of larger-sized LLMs. Yet,
scant attention has been directed towards the visual signals utilized by MLLMs,
often assumed to be the final high-level features extracted by a frozen visual
encoder. In this paper, we introduce the Dense Connector - a simple, effective,
and plug-and-play vision-language connector that significantly enhances
existing MLLMs by leveraging multi-layer visual features, with minimal
additional computational overhead. Furthermore, our model, trained solely on
images, showcases remarkable zero-shot capabilities in video understanding as
well. Experimental results across various vision encoders, image resolutions,
training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse
architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility
and scalability of our approach, achieving state-of-the-art performance on
across 19 image and video benchmarks. We hope that this work will provide
valuable experience and serve as a basic module for future MLLM development.Summary
AI-Generated Summary