VITA-1.5: Auf dem Weg zu Echtzeit-Vision und Sprachinteraktion auf GPT-4o-Niveau

papers.abstract

Aktuelle Multimodale Große Sprachmodelle (MLLMs) haben sich in der Regel darauf konzentriert, visuelle und textuelle Modalitäten zu integrieren, wobei weniger Wert auf die Rolle der Sprache zur Verbesserung der Interaktion gelegt wurde. Sprache spielt jedoch eine entscheidende Rolle in multimodalen Dialogsystemen, und die Implementierung von Hochleistungen in sowohl visuellen als auch sprachlichen Aufgaben bleibt eine bedeutende Herausforderung aufgrund der grundlegenden Modalitätsunterschiede. In diesem Paper schlagen wir eine sorgfältig konzipierte mehrstufige Schulungsmethodik vor, die LLM progressiv trainiert, um sowohl visuelle als auch sprachliche Informationen zu verstehen und letztendlich eine fließende Vision- und Sprachinteraktion zu ermöglichen. Unser Ansatz bewahrt nicht nur eine starke Vision-Sprach-Kapazität, sondern ermöglicht auch effiziente Sprach-zu-Sprach-Dialogfähigkeiten ohne separate ASR- und TTS-Module, was die multimodale End-to-End-Antwortgeschwindigkeit signifikant beschleunigt. Durch den Vergleich unserer Methode mit State-of-the-Art-Gegenstücken über Benchmarks für Bild-, Video- und Sprachaufgaben zeigen wir, dass unser Modell sowohl über starke visuelle als auch sprachliche Fähigkeiten verfügt und eine nahezu Echtzeit-Vision- und Sprachinteraktion ermöglicht.

English

Recent Multimodal Large Language Models (MLLMs) have typically focused on integrating visual and textual modalities, with less emphasis placed on the role of speech in enhancing interaction. However, speech plays a crucial role in multimodal dialogue systems, and implementing high-performance in both vision and speech tasks remains a significant challenge due to the fundamental modality differences. In this paper, we propose a carefully designed multi-stage training methodology that progressively trains LLM to understand both visual and speech information, ultimately enabling fluent vision and speech interaction. Our approach not only preserves strong vision-language capacity, but also enables efficient speech-to-speech dialogue capabilities without separate ASR and TTS modules, significantly accelerating multimodal end-to-end response speed. By comparing our method against state-of-the-art counterparts across benchmarks for image, video, and speech tasks, we demonstrate that our model is equipped with both strong visual and speech capabilities, making near real-time vision and speech interaction.

VITA-1.5: Auf dem Weg zu Echtzeit-Vision und Sprachinteraktion auf GPT-4o-Niveau

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

papers.abstract

Support