VITA : Vers un modèle de langage multimodal omni interactif open-source

papers.abstract

Les capacités multimodales remarquables et l'expérience interactive de GPT-4o soulignent leur nécessité dans les applications pratiques, pourtant les modèles open-source excellent rarement dans ces deux domaines. Dans cet article, nous présentons VITA, le premier modèle de langage multimodal (MLLM) open-source capable de traiter et d'analyser simultanément les modalités Vidéo, Image, Texte et Audio, tout en offrant une expérience interactive multimodale avancée. En partant de Mixtral 8x7B comme fondation linguistique, nous avons étendu son vocabulaire chinois suivi d'un réglage d'instructions bilingues. Nous avons ensuite doté le modèle de langage de capacités visuelles et auditives grâce à un apprentissage multitâche en deux étapes d'alignement multimodal et de réglage d'instructions. VITA démontre des capacités fondamentales robustes en compréhension multilingue, visuelle et auditive, comme en témoigne sa forte performance sur une gamme de benchmarks unimodaux et multimodaux. Au-delà des capacités fondamentales, nous avons fait des progrès considérables dans l'amélioration de l'expérience naturelle d'interaction homme-machine multimodale. À notre connaissance, nous sommes les premiers à exploiter l'interaction sans réveil et l'interruption audio dans un MLLM. VITA est la première étape pour la communauté open-source afin d'explorer l'intégration transparente de la compréhension et de l'interaction multimodales. Bien qu'il reste encore beaucoup de travail à faire sur VITA pour se rapprocher des équivalents propriétaires, nous espérons que son rôle de pionnier pourra servir de pierre angulaire pour les recherches ultérieures. Page du projet : https://vita-home.github.io.

English

The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.

VITA : Vers un modèle de langage multimodal omni interactif open-source

VITA: Towards Open-Source Interactive Omni Multimodal LLM

papers.abstract

Support