VITA-1.5: На пути к взаимодействию в реальном времени уровня GPT-4 с видением и речью.
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
January 3, 2025
Авторы: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
cs.AI
Аннотация
Недавние мультимодальные модели больших языков (MLLM) обычно сосредотачивались на интеграции визуальных и текстовых модальностей, уделяя меньше внимания роли речи в улучшении взаимодействия. Однако речь играет ключевую роль в мультимодальных диалоговых системах, и обеспечение высокой производительности как в задачах зрения, так и речи остается значительным вызовом из-за фундаментальных различий модальностей. В данной статье мы предлагаем тщательно разработанную методику многоэтапного обучения, которая постепенно обучает LLM понимать как визуальную, так и речевую информацию, в конечном итоге обеспечивая беглое взаимодействие зрения и речи. Наш подход не только сохраняет сильные возможности в области визуально-языкового взаимодействия, но также обеспечивает эффективные возможности диалога речь-речь без отдельных модулей распознавания и синтеза речи, что значительно ускоряет скорость ответа в мультимодальной конечной системе. Сравнивая наш метод с передовыми аналогами по показателям для задач изображений, видео и речи, мы демонстрируем, что наша модель обладает как сильными визуальными, так и речевыми возможностями, обеспечивая практически мгновенное взаимодействие зрения и речи.
English
Recent Multimodal Large Language Models (MLLMs) have typically focused on
integrating visual and textual modalities, with less emphasis placed on the
role of speech in enhancing interaction. However, speech plays a crucial role
in multimodal dialogue systems, and implementing high-performance in both
vision and speech tasks remains a significant challenge due to the fundamental
modality differences. In this paper, we propose a carefully designed
multi-stage training methodology that progressively trains LLM to understand
both visual and speech information, ultimately enabling fluent vision and
speech interaction. Our approach not only preserves strong vision-language
capacity, but also enables efficient speech-to-speech dialogue capabilities
without separate ASR and TTS modules, significantly accelerating multimodal
end-to-end response speed. By comparing our method against state-of-the-art
counterparts across benchmarks for image, video, and speech tasks, we
demonstrate that our model is equipped with both strong visual and speech
capabilities, making near real-time vision and speech interaction.Summary
AI-Generated Summary