VITA: Rumo a um LLM Multimodal Ômnico Interativo de Código AbertoVITA: Towards Open-Source Interactive Omni Multimodal LLM
As notáveis capacidades multimodais e a experiência interativa do GPT-4o destacam a sua necessidade em aplicações práticas, no entanto, modelos de código aberto raramente se destacam em ambas as áreas. Neste artigo, apresentamos o VITA, o primeiro Modelo de Linguagem Grande Multimodal (MLLM) de código aberto capaz de processar e analisar simultaneamente modalidades de Vídeo, Imagem, Texto e Áudio, e ao mesmo tempo oferece uma experiência interativa multimodal avançada. Partindo do Mixtral 8x7B como base linguística, expandimos seu vocabulário chinês seguido de ajustes de instrução bilíngue. Além disso, dotamos o modelo de linguagem com capacidades visuais e de áudio por meio de aprendizado multitarefa em duas etapas de alinhamento multimodal e ajuste de instrução. O VITA demonstra capacidades fundamentais robustas de compreensão multilíngue, visual e de áudio, conforme evidenciado por seu desempenho sólido em uma variedade de benchmarks unimodais e multimodais. Além das capacidades fundamentais, fizemos considerável progresso na melhoria da experiência natural de interação humano-computador multimodal. Até onde sabemos, somos os primeiros a explorar a interação não despertadora e a interrupção de áudio em MLLM. O VITA é o primeiro passo para a comunidade de código aberto explorar a integração perfeita de compreensão e interação multimodais. Embora ainda haja muito trabalho a ser feito no VITA para se equiparar aos equivalentes de código fechado, esperamos que seu papel como pioneiro possa servir de base para pesquisas subsequentes. Página do Projeto: https://vita-home.github.io.