VITA: Hacia un LLM multimodal omni interactivo de código abierto.
VITA: Towards Open-Source Interactive Omni Multimodal LLM
August 9, 2024
Autores: Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
cs.AI
Resumen
Las notables capacidades multimodales y la experiencia interactiva de GPT-4o subrayan su necesidad en aplicaciones prácticas, sin embargo, los modelos de código abierto rara vez destacan en ambas áreas. En este documento, presentamos VITA, el primer Modelo de Lenguaje Multimodal Grande (MLLM, por sus siglas en inglés) de código abierto capaz de procesar y analizar simultáneamente modalidades de Video, Imagen, Texto y Audio, y al mismo tiempo cuenta con una avanzada experiencia interactiva multimodal. Comenzando desde Mixtral 8x7B como base lingüística, ampliamos su vocabulario chino seguido de un ajuste de instrucciones bilingüe. Además, dotamos al modelo de lenguaje con capacidades visuales y de audio a través del aprendizaje multitarea en dos etapas de alineación multimodal y ajuste de instrucciones. VITA demuestra sólidas capacidades fundamentales de comprensión multilingüe, visual y auditiva, como lo demuestra su sólido rendimiento en una variedad de pruebas tanto unimodales como multimodales. Más allá de las capacidades fundamentales, hemos avanzado considerablemente en mejorar la experiencia natural de interacción humano-computadora multimodal. Hasta donde sabemos, somos los primeros en explotar la interacción no despertadora y la interrupción de audio en MLLM. VITA es el primer paso para que la comunidad de código abierto explore la integración fluida de comprensión e interacción multimodal. Aunque aún queda mucho trabajo por hacer en VITA para acercarse a sus contrapartes de código cerrado, esperamos que su papel como pionero pueda servir como piedra angular para investigaciones posteriores. Página del Proyecto: https://vita-home.github.io.
English
The remarkable multimodal capabilities and interactive experience of GPT-4o
underscore their necessity in practical applications, yet open-source models
rarely excel in both areas. In this paper, we introduce VITA, the first-ever
open-source Multimodal Large Language Model (MLLM) adept at simultaneous
processing and analysis of Video, Image, Text, and Audio modalities, and
meanwhile has an advanced multimodal interactive experience. Starting from
Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary
followed by bilingual instruction tuning. We further endow the language model
with visual and audio capabilities through two-stage multi-task learning of
multimodal alignment and instruction tuning. VITA demonstrates robust
foundational capabilities of multilingual, vision, and audio understanding, as
evidenced by its strong performance across a range of both unimodal and
multimodal benchmarks. Beyond foundational capabilities, we have made
considerable progress in enhancing the natural multimodal human-computer
interaction experience. To the best of our knowledge, we are the first to
exploit non-awakening interaction and audio interrupt in MLLM. VITA is the
first step for the open-source community to explore the seamless integration of
multimodal understanding and interaction. While there is still lots of work to
be done on VITA to get close to close-source counterparts, we hope that its
role as a pioneer can serve as a cornerstone for subsequent research. Project
Page: https://vita-home.github.io.Summary
AI-Generated Summary