VITA-1.5 : Vers une interaction en temps réel de niveau GPT-4o entre la vision et la parole
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
January 3, 2025
Auteurs: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
cs.AI
Résumé
Les récents Modèles de Langage Multimodaux à Grande Échelle (MLLM) se sont principalement concentrés sur l'intégration des modalités visuelle et textuelle, avec moins d'attention accordée au rôle de la parole dans l'amélioration de l'interaction. Cependant, la parole joue un rôle crucial dans les systèmes de dialogue multimodaux, et la mise en œuvre de performances élevées dans les tâches de vision et de parole reste un défi majeur en raison des différences fondamentales de modalité. Dans cet article, nous proposons une méthodologie d'entraînement en plusieurs étapes soigneusement conçue qui entraîne progressivement le MLLM à comprendre à la fois les informations visuelles et vocales, permettant finalement une interaction fluide entre la vision et la parole. Notre approche non seulement préserve une forte capacité de vision-langage, mais permet également des capacités de dialogue efficaces de parole à parole sans modules ASR et TTS séparés, accélérant significativement la vitesse de réponse multimodale de bout en bout. En comparant notre méthode avec des homologues de pointe sur des référentiels pour les tâches d'image, de vidéo et de parole, nous démontrons que notre modèle est doté de capacités visuelles et vocales solides, permettant une interaction quasi en temps réel entre la vision et la parole.
English
Recent Multimodal Large Language Models (MLLMs) have typically focused on
integrating visual and textual modalities, with less emphasis placed on the
role of speech in enhancing interaction. However, speech plays a crucial role
in multimodal dialogue systems, and implementing high-performance in both
vision and speech tasks remains a significant challenge due to the fundamental
modality differences. In this paper, we propose a carefully designed
multi-stage training methodology that progressively trains LLM to understand
both visual and speech information, ultimately enabling fluent vision and
speech interaction. Our approach not only preserves strong vision-language
capacity, but also enables efficient speech-to-speech dialogue capabilities
without separate ASR and TTS modules, significantly accelerating multimodal
end-to-end response speed. By comparing our method against state-of-the-art
counterparts across benchmarks for image, video, and speech tasks, we
demonstrate that our model is equipped with both strong visual and speech
capabilities, making near real-time vision and speech interaction.Summary
AI-Generated Summary