VITA : Vers un modèle de langage multimodal omni interactif open-source
VITA: Towards Open-Source Interactive Omni Multimodal LLM
August 9, 2024
Auteurs: Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
cs.AI
Résumé
Les capacités multimodales remarquables et l'expérience interactive de GPT-4o
soulignent leur nécessité dans les applications pratiques, pourtant les modèles
open-source excellent rarement dans ces deux domaines. Dans cet article, nous
présentons VITA, le premier modèle de langage multimodal (MLLM) open-source
capable de traiter et d'analyser simultanément les modalités Vidéo, Image, Texte
et Audio, tout en offrant une expérience interactive multimodale avancée. En
partant de Mixtral 8x7B comme fondation linguistique, nous avons étendu son
vocabulaire chinois suivi d'un réglage d'instructions bilingues. Nous avons
ensuite doté le modèle de langage de capacités visuelles et auditives grâce à un
apprentissage multitâche en deux étapes d'alignement multimodal et de réglage
d'instructions. VITA démontre des capacités fondamentales robustes en
compréhension multilingue, visuelle et auditive, comme en témoigne sa forte
performance sur une gamme de benchmarks unimodaux et multimodaux. Au-delà des
capacités fondamentales, nous avons fait des progrès considérables dans
l'amélioration de l'expérience naturelle d'interaction homme-machine
multimodale. À notre connaissance, nous sommes les premiers à exploiter
l'interaction sans réveil et l'interruption audio dans un MLLM. VITA est la
première étape pour la communauté open-source afin d'explorer l'intégration
transparente de la compréhension et de l'interaction multimodales. Bien qu'il
reste encore beaucoup de travail à faire sur VITA pour se rapprocher des
équivalents propriétaires, nous espérons que son rôle de pionnier pourra servir
de pierre angulaire pour les recherches ultérieures. Page du projet :
https://vita-home.github.io.
English
The remarkable multimodal capabilities and interactive experience of GPT-4o
underscore their necessity in practical applications, yet open-source models
rarely excel in both areas. In this paper, we introduce VITA, the first-ever
open-source Multimodal Large Language Model (MLLM) adept at simultaneous
processing and analysis of Video, Image, Text, and Audio modalities, and
meanwhile has an advanced multimodal interactive experience. Starting from
Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary
followed by bilingual instruction tuning. We further endow the language model
with visual and audio capabilities through two-stage multi-task learning of
multimodal alignment and instruction tuning. VITA demonstrates robust
foundational capabilities of multilingual, vision, and audio understanding, as
evidenced by its strong performance across a range of both unimodal and
multimodal benchmarks. Beyond foundational capabilities, we have made
considerable progress in enhancing the natural multimodal human-computer
interaction experience. To the best of our knowledge, we are the first to
exploit non-awakening interaction and audio interrupt in MLLM. VITA is the
first step for the open-source community to explore the seamless integration of
multimodal understanding and interaction. While there is still lots of work to
be done on VITA to get close to close-source counterparts, we hope that its
role as a pioneer can serve as a cornerstone for subsequent research. Project
Page: https://vita-home.github.io.Summary
AI-Generated Summary