VITA: Verso un Modello Linguistico Multimodale Omni Interattivo Open-Source

Abstract

Le straordinarie capacità multimodali e l'esperienza interattiva di GPT-4o sottolineano la loro necessità nelle applicazioni pratiche, tuttavia i modelli open-source raramente eccellono in entrambi gli aspetti. In questo articolo, presentiamo VITA, il primo modello Multimodale di Grande Linguaggio (MLLM) open-source in grado di elaborare e analizzare simultaneamente le modalità Video, Immagine, Testo e Audio, offrendo al contempo un'esperienza interattiva multimodale avanzata. Partendo da Mixtral 8x7B come base linguistica, ne espandiamo il vocabolario cinese seguito da un tuning delle istruzioni bilingue. Dotiamo ulteriormente il modello linguistico di capacità visive e audio attraverso un apprendimento multi-task in due fasi di allineamento multimodale e tuning delle istruzioni. VITA dimostra solide capacità fondamentali di comprensione multilingue, visiva e audio, come evidenziato dalle sue prestazioni robuste in una gamma di benchmark sia unimodali che multimodali. Oltre alle capacità fondamentali, abbiamo fatto progressi significativi nel migliorare l'esperienza naturale di interazione uomo-computer multimodale. Per quanto ne sappiamo, siamo i primi a sfruttare l'interazione senza risveglio e l'interruzione audio in un MLLM. VITA rappresenta il primo passo per la comunità open-source nell'esplorare l'integrazione senza soluzione di continuità tra comprensione e interazione multimodale. Sebbene ci sia ancora molto lavoro da fare su VITA per avvicinarsi alle controparti closed-source, speriamo che il suo ruolo di pioniere possa servire come pietra angolare per le ricerche successive. Pagina del progetto: https://vita-home.github.io.

English

The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.

VITA: Verso un Modello Linguistico Multimodale Omni Interattivo Open-Source

VITA: Towards Open-Source Interactive Omni Multimodal LLM

Abstract

Support