VITA: Op weg naar een open-source interactieve omni-multimodale LLM

Samenvatting

De opmerkelijke multimodale capaciteiten en interactieve ervaring van GPT-4o benadrukken hun noodzaak in praktische toepassingen, terwijl open-source modellen zelden uitblinken in beide aspecten. In dit artikel introduceren we VITA, het allereerste open-source Multimodale Taalmodel (MLLM) dat geschikt is voor de gelijktijdige verwerking en analyse van Video, Afbeelding, Tekst en Audio, en tegelijkertijd een geavanceerde multimodale interactieve ervaring biedt. Beginnend met Mixtral 8x7B als taalbasis, breiden we de Chinese woordenschat uit, gevolgd door tweetalige instructieafstemming. We voorzien het taalmodel verder van visuele en auditieve capaciteiten door middel van tweefasen multitask-leren van multimodale afstemming en instructieafstemming. VITA toont robuuste basisvaardigheden in meertaligheid, visueel en auditief begrip, zoals blijkt uit de sterke prestaties op een reeks zowel unimodale als multimodale benchmarks. Naast basisvaardigheden hebben we aanzienlijke vooruitgang geboekt in het verbeteren van de natuurlijke multimodale mens-computerinteractie-ervaring. Voor zover wij weten, zijn wij de eersten die niet-ontwaakinteractie en audio-onderbreking in MLLM benutten. VITA is de eerste stap voor de open-source gemeenschap om de naadloze integratie van multimodaal begrip en interactie te verkennen. Hoewel er nog veel werk aan VITA moet worden verricht om dicht bij closed-source tegenhangers te komen, hopen we dat zijn rol als pionier kan dienen als hoeksteen voor vervolgonderzoek. Projectpagina: https://vita-home.github.io.

English

The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.

VITA: Op weg naar een open-source interactieve omni-multimodale LLM

VITA: Towards Open-Source Interactive Omni Multimodal LLM

Samenvatting

Support