VITA-1.5: Hacia una Interacción en Tiempo Real de Visión y Habla a Nivel GPT-4
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
January 3, 2025
Autores: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales Grandes (MLLMs) recientes han enfocado típicamente en integrar modalidades visual y textual, con menos énfasis en el papel del habla en mejorar la interacción. Sin embargo, el habla desempeña un papel crucial en los sistemas de diálogo multimodales, y lograr un alto rendimiento en tareas de visión y habla sigue siendo un desafío significativo debido a las diferencias fundamentales de modalidad. En este documento, proponemos una metodología de entrenamiento multi-etapa cuidadosamente diseñada que entrena progresivamente al MLLM para comprender tanto información visual como de habla, permitiendo en última instancia una interacción fluida entre visión y habla. Nuestro enfoque no solo preserva una sólida capacidad de visión-lenguaje, sino que también habilita capacidades eficientes de diálogo de habla a habla sin módulos separados de ASR y TTS, acelerando significativamente la velocidad de respuesta multimodal de extremo a extremo. Al comparar nuestro método con contrapartes de última generación en pruebas para tareas de imagen, video y habla, demostramos que nuestro modelo está equipado con capacidades sólidas tanto en visión como en habla, logrando una interacción casi en tiempo real entre visión y habla.
English
Recent Multimodal Large Language Models (MLLMs) have typically focused on
integrating visual and textual modalities, with less emphasis placed on the
role of speech in enhancing interaction. However, speech plays a crucial role
in multimodal dialogue systems, and implementing high-performance in both
vision and speech tasks remains a significant challenge due to the fundamental
modality differences. In this paper, we propose a carefully designed
multi-stage training methodology that progressively trains LLM to understand
both visual and speech information, ultimately enabling fluent vision and
speech interaction. Our approach not only preserves strong vision-language
capacity, but also enables efficient speech-to-speech dialogue capabilities
without separate ASR and TTS modules, significantly accelerating multimodal
end-to-end response speed. By comparing our method against state-of-the-art
counterparts across benchmarks for image, video, and speech tasks, we
demonstrate that our model is equipped with both strong visual and speech
capabilities, making near real-time vision and speech interaction.Summary
AI-Generated Summary