VITA-1.5: Auf dem Weg zu Echtzeit-Vision und Sprachinteraktion auf GPT-4o-Niveau
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
January 3, 2025
Autoren: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
cs.AI
Zusammenfassung
Aktuelle Multimodale Große Sprachmodelle (MLLMs) haben sich in der Regel darauf konzentriert, visuelle und textuelle Modalitäten zu integrieren, wobei weniger Wert auf die Rolle der Sprache zur Verbesserung der Interaktion gelegt wurde. Sprache spielt jedoch eine entscheidende Rolle in multimodalen Dialogsystemen, und die Implementierung von Hochleistungen in sowohl visuellen als auch sprachlichen Aufgaben bleibt eine bedeutende Herausforderung aufgrund der grundlegenden Modalitätsunterschiede. In diesem Paper schlagen wir eine sorgfältig konzipierte mehrstufige Schulungsmethodik vor, die LLM progressiv trainiert, um sowohl visuelle als auch sprachliche Informationen zu verstehen und letztendlich eine fließende Vision- und Sprachinteraktion zu ermöglichen. Unser Ansatz bewahrt nicht nur eine starke Vision-Sprach-Kapazität, sondern ermöglicht auch effiziente Sprach-zu-Sprach-Dialogfähigkeiten ohne separate ASR- und TTS-Module, was die multimodale End-to-End-Antwortgeschwindigkeit signifikant beschleunigt. Durch den Vergleich unserer Methode mit State-of-the-Art-Gegenstücken über Benchmarks für Bild-, Video- und Sprachaufgaben zeigen wir, dass unser Modell sowohl über starke visuelle als auch sprachliche Fähigkeiten verfügt und eine nahezu Echtzeit-Vision- und Sprachinteraktion ermöglicht.
English
Recent Multimodal Large Language Models (MLLMs) have typically focused on
integrating visual and textual modalities, with less emphasis placed on the
role of speech in enhancing interaction. However, speech plays a crucial role
in multimodal dialogue systems, and implementing high-performance in both
vision and speech tasks remains a significant challenge due to the fundamental
modality differences. In this paper, we propose a carefully designed
multi-stage training methodology that progressively trains LLM to understand
both visual and speech information, ultimately enabling fluent vision and
speech interaction. Our approach not only preserves strong vision-language
capacity, but also enables efficient speech-to-speech dialogue capabilities
without separate ASR and TTS modules, significantly accelerating multimodal
end-to-end response speed. By comparing our method against state-of-the-art
counterparts across benchmarks for image, video, and speech tasks, we
demonstrate that our model is equipped with both strong visual and speech
capabilities, making near real-time vision and speech interaction.Summary
AI-Generated Summary