VITA : Vers un modèle de langage multimodal omni interactif open-sourceVITA: Towards Open-Source Interactive Omni Multimodal LLM
Les capacités multimodales remarquables et l'expérience interactive de GPT-4o soulignent leur nécessité dans les applications pratiques, pourtant les modèles open-source excellent rarement dans ces deux domaines. Dans cet article, nous présentons VITA, le premier modèle de langage multimodal (MLLM) open-source capable de traiter et d'analyser simultanément les modalités Vidéo, Image, Texte et Audio, tout en offrant une expérience interactive multimodale avancée. En partant de Mixtral 8x7B comme fondation linguistique, nous avons étendu son vocabulaire chinois suivi d'un réglage d'instructions bilingues. Nous avons ensuite doté le modèle de langage de capacités visuelles et auditives grâce à un apprentissage multitâche en deux étapes d'alignement multimodal et de réglage d'instructions. VITA démontre des capacités fondamentales robustes en compréhension multilingue, visuelle et auditive, comme en témoigne sa forte performance sur une gamme de benchmarks unimodaux et multimodaux. Au-delà des capacités fondamentales, nous avons fait des progrès considérables dans l'amélioration de l'expérience naturelle d'interaction homme-machine multimodale. À notre connaissance, nous sommes les premiers à exploiter l'interaction sans réveil et l'interruption audio dans un MLLM. VITA est la première étape pour la communauté open-source afin d'explorer l'intégration transparente de la compréhension et de l'interaction multimodales. Bien qu'il reste encore beaucoup de travail à faire sur VITA pour se rapprocher des équivalents propriétaires, nous espérons que son rôle de pionnier pourra servir de pierre angulaire pour les recherches ultérieures. Page du projet : https://vita-home.github.io.