VITA: Verso un Modello Linguistico Multimodale Omni Interattivo Open-Source
VITA: Towards Open-Source Interactive Omni Multimodal LLM
August 9, 2024
Autori: Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
cs.AI
Abstract
Le straordinarie capacità multimodali e l'esperienza interattiva di GPT-4o sottolineano la loro necessità nelle applicazioni pratiche, tuttavia i modelli open-source raramente eccellono in entrambi gli aspetti. In questo articolo, presentiamo VITA, il primo modello Multimodale di Grande Linguaggio (MLLM) open-source in grado di elaborare e analizzare simultaneamente le modalità Video, Immagine, Testo e Audio, offrendo al contempo un'esperienza interattiva multimodale avanzata. Partendo da Mixtral 8x7B come base linguistica, ne espandiamo il vocabolario cinese seguito da un tuning delle istruzioni bilingue. Dotiamo ulteriormente il modello linguistico di capacità visive e audio attraverso un apprendimento multi-task in due fasi di allineamento multimodale e tuning delle istruzioni. VITA dimostra solide capacità fondamentali di comprensione multilingue, visiva e audio, come evidenziato dalle sue prestazioni robuste in una gamma di benchmark sia unimodali che multimodali. Oltre alle capacità fondamentali, abbiamo fatto progressi significativi nel migliorare l'esperienza naturale di interazione uomo-computer multimodale. Per quanto ne sappiamo, siamo i primi a sfruttare l'interazione senza risveglio e l'interruzione audio in un MLLM. VITA rappresenta il primo passo per la comunità open-source nell'esplorare l'integrazione senza soluzione di continuità tra comprensione e interazione multimodale. Sebbene ci sia ancora molto lavoro da fare su VITA per avvicinarsi alle controparti closed-source, speriamo che il suo ruolo di pioniere possa servire come pietra angolare per le ricerche successive. Pagina del progetto: https://vita-home.github.io.
English
The remarkable multimodal capabilities and interactive experience of GPT-4o
underscore their necessity in practical applications, yet open-source models
rarely excel in both areas. In this paper, we introduce VITA, the first-ever
open-source Multimodal Large Language Model (MLLM) adept at simultaneous
processing and analysis of Video, Image, Text, and Audio modalities, and
meanwhile has an advanced multimodal interactive experience. Starting from
Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary
followed by bilingual instruction tuning. We further endow the language model
with visual and audio capabilities through two-stage multi-task learning of
multimodal alignment and instruction tuning. VITA demonstrates robust
foundational capabilities of multilingual, vision, and audio understanding, as
evidenced by its strong performance across a range of both unimodal and
multimodal benchmarks. Beyond foundational capabilities, we have made
considerable progress in enhancing the natural multimodal human-computer
interaction experience. To the best of our knowledge, we are the first to
exploit non-awakening interaction and audio interrupt in MLLM. VITA is the
first step for the open-source community to explore the seamless integration of
multimodal understanding and interaction. While there is still lots of work to
be done on VITA to get close to close-source counterparts, we hope that its
role as a pioneer can serve as a cornerstone for subsequent research. Project
Page: https://vita-home.github.io.