VITA: Rumo a um LLM Multimodal Ômnico Interativo de Código Aberto

Resumo

As notáveis capacidades multimodais e a experiência interativa do GPT-4o destacam a sua necessidade em aplicações práticas, no entanto, modelos de código aberto raramente se destacam em ambas as áreas. Neste artigo, apresentamos o VITA, o primeiro Modelo de Linguagem Grande Multimodal (MLLM) de código aberto capaz de processar e analisar simultaneamente modalidades de Vídeo, Imagem, Texto e Áudio, e ao mesmo tempo oferece uma experiência interativa multimodal avançada. Partindo do Mixtral 8x7B como base linguística, expandimos seu vocabulário chinês seguido de ajustes de instrução bilíngue. Além disso, dotamos o modelo de linguagem com capacidades visuais e de áudio por meio de aprendizado multitarefa em duas etapas de alinhamento multimodal e ajuste de instrução. O VITA demonstra capacidades fundamentais robustas de compreensão multilíngue, visual e de áudio, conforme evidenciado por seu desempenho sólido em uma variedade de benchmarks unimodais e multimodais. Além das capacidades fundamentais, fizemos considerável progresso na melhoria da experiência natural de interação humano-computador multimodal. Até onde sabemos, somos os primeiros a explorar a interação não despertadora e a interrupção de áudio em MLLM. O VITA é o primeiro passo para a comunidade de código aberto explorar a integração perfeita de compreensão e interação multimodais. Embora ainda haja muito trabalho a ser feito no VITA para se equiparar aos equivalentes de código fechado, esperamos que seu papel como pioneiro possa servir de base para pesquisas subsequentes. Página do Projeto: https://vita-home.github.io.

English

The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.

VITA: Rumo a um LLM Multimodal Ômnico Interativo de Código Aberto

VITA: Towards Open-Source Interactive Omni Multimodal LLM

Resumo

Summary

Support

Support