VITA: К открытому исходному коду интерактивной общей мультимодальной модели языка.
VITA: Towards Open-Source Interactive Omni Multimodal LLM
August 9, 2024
Авторы: Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
cs.AI
Аннотация
Замечательные мультимодальные возможности и интерактивный опыт GPT-4o подчеркивают их необходимость в практических приложениях, однако модели с открытым исходным кодом редко выдают выдающиеся результаты в обеих областях. В данной статье мы представляем VITA, первую в своем роде открытую мультимодальную крупномасштабную языковую модель (MLLM), способную к одновременной обработке и анализу видео-, изображений-, текстовых и аудио-модальностей, обладающую при этом продвинутым мультимодальным интерактивным опытом. Начиная с Mixtral 8x7B в качестве языкового фундамента, мы расширяем его китайский словарный запас, а затем проводим настройку двуязычных инструкций. Мы также наделяем языковую модель возможностями видео- и аудио-обработки через двухэтапное многозадачное обучение мультимодальной выравнивающей и настраивающей инструкции. VITA демонстрирует надежные базовые возможности мультиязычного, видео- и аудио-понимания, что подтверждается ее высокой производительностью на ряде как унимодальных, так и мультимодальных бенчмарков. Помимо базовых возможностей, мы сделали значительные успехи в улучшении естественного мультимодального человеко-компьютерного взаимодействия. На наш взгляд, мы первые, кто использует невозбуждающее взаимодействие и аудио-прерывание в MLLM. VITA - первый шаг для сообщества с открытым исходным кодом в исследовании плавного интегрирования мультимодального понимания и взаимодействия. Хотя еще много работы предстоит сделать над VITA, чтобы приблизиться к закрытым аналогам, мы надеемся, что ее роль пионера может послужить угловым камнем для последующих исследований. Страница проекта: https://vita-home.github.io.
English
The remarkable multimodal capabilities and interactive experience of GPT-4o
underscore their necessity in practical applications, yet open-source models
rarely excel in both areas. In this paper, we introduce VITA, the first-ever
open-source Multimodal Large Language Model (MLLM) adept at simultaneous
processing and analysis of Video, Image, Text, and Audio modalities, and
meanwhile has an advanced multimodal interactive experience. Starting from
Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary
followed by bilingual instruction tuning. We further endow the language model
with visual and audio capabilities through two-stage multi-task learning of
multimodal alignment and instruction tuning. VITA demonstrates robust
foundational capabilities of multilingual, vision, and audio understanding, as
evidenced by its strong performance across a range of both unimodal and
multimodal benchmarks. Beyond foundational capabilities, we have made
considerable progress in enhancing the natural multimodal human-computer
interaction experience. To the best of our knowledge, we are the first to
exploit non-awakening interaction and audio interrupt in MLLM. VITA is the
first step for the open-source community to explore the seamless integration of
multimodal understanding and interaction. While there is still lots of work to
be done on VITA to get close to close-source counterparts, we hope that its
role as a pioneer can serve as a cornerstone for subsequent research. Project
Page: https://vita-home.github.io.Summary
AI-Generated Summary