Stream-Omni: Interações Multimodais Simultâneas com Modelos de Linguagem-Visão-Fala em Grande Escala
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
June 16, 2025
Autores: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
cs.AI
Resumo
O surgimento de grandes modelos multimodais (LMMs) semelhantes ao GPT-4o tem impulsionado a exploração da integração de modalidades de texto, visão e fala para suportar interações multimodais mais flexíveis. Os LMMs existentes geralmente concatenam as representações das modalidades ao longo da dimensão sequencial e as alimentam em um modelo de linguagem grande (LLM) como backbone. Embora a concatenação na dimensão sequencial seja direta para a integração de modalidades, ela frequentemente depende fortemente de dados em grande escala para aprender alinhamentos entre modalidades. Neste artigo, buscamos modelar as relações entre modalidades de forma mais intencional, alcançando assim alinhamentos de modalidades mais eficientes e flexíveis. Para isso, propomos o Stream-Omni, um grande modelo de linguagem-visão-fala com alinhamentos eficientes de modalidades, que pode suportar simultaneamente interações sob várias combinações de modalidades. O Stream-Omni emprega um LLM como backbone e alinha a visão e a fala ao texto com base em suas relações. Para a visão, que é semanticamente complementar ao texto, o Stream-Omni utiliza a concatenação na dimensão sequencial para alcançar o alinhamento visão-texto. Para a fala, que é semanticamente consistente com o texto, o Stream-Omni introduz um mapeamento baseado em CTC na dimensão de camadas para alcançar o alinhamento fala-texto. Dessa forma, o Stream-Omni pode alcançar alinhamentos de modalidades com menos dados (especialmente de fala), permitindo a transferência de capacidades de texto para outras modalidades. Experimentos em vários benchmarks demonstram que o Stream-Omni alcança um desempenho robusto em tarefas de compreensão visual, interação por fala e interação por fala baseada em visão. Graças ao mapeamento na dimensão de camadas, o Stream-Omni pode fornecer simultaneamente saídas de texto intermediárias (como transcrições ASR e respostas do modelo) durante a interação por fala, oferecendo aos usuários uma experiência multimodal abrangente.
English
The emergence of GPT-4o-like large multimodal models (LMMs) has raised the
exploration of integrating text, vision, and speech modalities to support more
flexible multimodal interaction. Existing LMMs typically concatenate
representation of modalities along the sequence dimension and feed them into a
large language model (LLM) backbone. While sequence-dimension concatenation is
straightforward for modality integration, it often relies heavily on
large-scale data to learn modality alignments. In this paper, we aim to model
the relationships between modalities more purposefully, thereby achieving more
efficient and flexible modality alignments. To this end, we propose
Stream-Omni, a large language-vision-speech model with efficient modality
alignments, which can simultaneously support interactions under various
modality combinations. Stream-Omni employs LLM as the backbone and aligns the
vision and speech to the text based on their relationships. For vision that is
semantically complementary to text, Stream-Omni uses sequence-dimension
concatenation to achieve vision-text alignment. For speech that is semantically
consistent with text, Stream-Omni introduces a CTC-based layer-dimension
mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve
modality alignments with less data (especially speech), enabling the transfer
of text capabilities to other modalities. Experiments on various benchmarks
demonstrate that Stream-Omni achieves strong performance on visual
understanding, speech interaction, and vision-grounded speech interaction
tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously
provide intermediate text outputs (such as ASR transcriptions and model
responses) during speech interaction, offering users a comprehensive multimodal
experience.