ChatPaper.aiChatPaper

VITA-1.5: Naar GPT-4o-niveau Real-Time Visie- en Spraakinteractie

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

January 3, 2025
Auteurs: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
cs.AI

Samenvatting

Recente Multimodale Grote Taalmodellen (MLLM's) hebben zich doorgaans gericht op het integreren van visuele en tekstuele modaliteiten, met minder nadruk op de rol van spraak bij het verbeteren van interactie. Echter, spraak speelt een cruciale rol in multimodale dialoogsystemen, en het implementeren van hoogwaardige prestaties in zowel visuele als spraaktaken blijft een aanzienlijke uitdaging vanwege de fundamentele modaliteitsverschillen. In dit artikel stellen we een zorgvuldig ontworpen multi-stage trainingsmethodologie voor die LLM progressief traint om zowel visuele als spraakinformatie te begrijpen, wat uiteindelijk vloeiende visie- en spraakinteractie mogelijk maakt. Onze aanpak behoudt niet alleen sterke visie-taalcapaciteit, maar maakt ook efficiënte spraak-naar-spraak dialoogmogelijkheden mogelijk zonder aparte ASR- en TTS-modules, waardoor de snelheid van multimodale end-to-end reacties aanzienlijk wordt versneld. Door onze methode te vergelijken met state-of-the-art tegenhangers over benchmarks voor afbeeldings-, video- en spraaktaken, tonen we aan dat ons model is uitgerust met zowel sterke visuele als spraakcapaciteiten, waardoor bijna real-time visie- en spraakinteractie mogelijk is.
English
Recent Multimodal Large Language Models (MLLMs) have typically focused on integrating visual and textual modalities, with less emphasis placed on the role of speech in enhancing interaction. However, speech plays a crucial role in multimodal dialogue systems, and implementing high-performance in both vision and speech tasks remains a significant challenge due to the fundamental modality differences. In this paper, we propose a carefully designed multi-stage training methodology that progressively trains LLM to understand both visual and speech information, ultimately enabling fluent vision and speech interaction. Our approach not only preserves strong vision-language capacity, but also enables efficient speech-to-speech dialogue capabilities without separate ASR and TTS modules, significantly accelerating multimodal end-to-end response speed. By comparing our method against state-of-the-art counterparts across benchmarks for image, video, and speech tasks, we demonstrate that our model is equipped with both strong visual and speech capabilities, making near real-time vision and speech interaction.

Summary

AI-Generated Summary

PDF462January 6, 2025