Stream-Omni: Одновременное мультимодальное взаимодействие с крупной языково-визуально-речевой моделью
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
June 16, 2025
Авторы: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
cs.AI
Аннотация
Появление крупных мультимодальных моделей (LMM), подобных GPT-4o, стимулировало исследования по интеграции текстовых, визуальных и речевых модальностей для поддержки более гибкого мультимодального взаимодействия. Существующие LMM обычно объединяют представления модальностей вдоль последовательностного измерения и передают их в основу крупной языковой модели (LLM). Хотя объединение по последовательностному измерению является простым способом интеграции модальностей, оно часто сильно зависит от масштабных данных для изучения их согласования. В данной работе мы стремимся более целенаправленно моделировать отношения между модальностями, достигая более эффективного и гибкого их согласования. Для этого мы предлагаем Stream-Omni — крупную языково-визуально-речевую модель с эффективным согласованием модальностей, которая может одновременно поддерживать взаимодействие при различных комбинациях модальностей. Stream-Omni использует LLM в качестве основы и согласовывает визуальную и речевую модальности с текстом на основе их отношений. Для визуальной модальности, которая семантически дополняет текст, Stream-Omni применяет объединение по последовательностному измерению для достижения согласования. Для речевой модальности, которая семантически согласуется с текстом, Stream-Omni вводит слоевую маппировку на основе CTC для достижения согласования. Таким образом, Stream-Omni может достигать согласования модальностей с меньшим объемом данных (особенно речевых), что позволяет переносить текстовые возможности на другие модальности. Эксперименты на различных бенчмарках демонстрируют, что Stream-Omni достигает высокой производительности в задачах визуального понимания, речевого взаимодействия и взаимодействия, основанного на визуальной и речевой модальностях. Благодаря слоевой маппировке, Stream-Omni может одновременно предоставлять промежуточные текстовые результаты (например, транскрипции ASR и ответы модели) во время речевого взаимодействия, предлагая пользователям комплексный мультимодальный опыт.
English
The emergence of GPT-4o-like large multimodal models (LMMs) has raised the
exploration of integrating text, vision, and speech modalities to support more
flexible multimodal interaction. Existing LMMs typically concatenate
representation of modalities along the sequence dimension and feed them into a
large language model (LLM) backbone. While sequence-dimension concatenation is
straightforward for modality integration, it often relies heavily on
large-scale data to learn modality alignments. In this paper, we aim to model
the relationships between modalities more purposefully, thereby achieving more
efficient and flexible modality alignments. To this end, we propose
Stream-Omni, a large language-vision-speech model with efficient modality
alignments, which can simultaneously support interactions under various
modality combinations. Stream-Omni employs LLM as the backbone and aligns the
vision and speech to the text based on their relationships. For vision that is
semantically complementary to text, Stream-Omni uses sequence-dimension
concatenation to achieve vision-text alignment. For speech that is semantically
consistent with text, Stream-Omni introduces a CTC-based layer-dimension
mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve
modality alignments with less data (especially speech), enabling the transfer
of text capabilities to other modalities. Experiments on various benchmarks
demonstrate that Stream-Omni achieves strong performance on visual
understanding, speech interaction, and vision-grounded speech interaction
tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously
provide intermediate text outputs (such as ASR transcriptions and model
responses) during speech interaction, offering users a comprehensive multimodal
experience.