Stream-Omni: Interacciones Multimodales Simultáneas con un Modelo de Lenguaje-Visión-Habla a Gran Escala
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
June 16, 2025
Autores: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
cs.AI
Resumen
El surgimiento de modelos multimodales grandes (LMMs) similares a GPT-4o ha impulsado la exploración de la integración de modalidades de texto, visión y habla para apoyar interacciones multimodales más flexibles. Los LMMs existentes suelen concatenar las representaciones de las modalidades a lo largo de la dimensión de secuencia y alimentarlas en un modelo de lenguaje grande (LLM) como columna vertebral. Aunque la concatenación en la dimensión de secuencia es directa para la integración de modalidades, a menudo depende en gran medida de datos a gran escala para aprender las alineaciones entre modalidades. En este artículo, buscamos modelar las relaciones entre modalidades de manera más intencionada, logrando así alineaciones de modalidades más eficientes y flexibles. Para ello, proponemos Stream-Omni, un modelo grande de lenguaje-visión-habla con alineaciones de modalidades eficientes, que puede soportar simultáneamente interacciones bajo diversas combinaciones de modalidades. Stream-Omni emplea un LLM como columna vertebral y alinea la visión y el habla al texto basándose en sus relaciones. Para la visión, que es semánticamente complementaria al texto, Stream-Omni utiliza la concatenación en la dimensión de secuencia para lograr la alineación visión-texto. Para el habla, que es semánticamente consistente con el texto, Stream-Omni introduce un mapeo en la dimensión de capas basado en CTC para lograr la alineación habla-texto. De esta manera, Stream-Omni puede lograr alineaciones de modalidades con menos datos (especialmente de habla), permitiendo la transferencia de capacidades de texto a otras modalidades. Los experimentos en varios benchmarks demuestran que Stream-Omni logra un rendimiento sólido en tareas de comprensión visual, interacción de habla e interacción de habla basada en visión. Gracias al mapeo en la dimensión de capas, Stream-Omni puede proporcionar simultáneamente salidas de texto intermedias (como transcripciones ASR y respuestas del modelo) durante la interacción de habla, ofreciendo a los usuarios una experiencia multimodal integral.
English
The emergence of GPT-4o-like large multimodal models (LMMs) has raised the
exploration of integrating text, vision, and speech modalities to support more
flexible multimodal interaction. Existing LMMs typically concatenate
representation of modalities along the sequence dimension and feed them into a
large language model (LLM) backbone. While sequence-dimension concatenation is
straightforward for modality integration, it often relies heavily on
large-scale data to learn modality alignments. In this paper, we aim to model
the relationships between modalities more purposefully, thereby achieving more
efficient and flexible modality alignments. To this end, we propose
Stream-Omni, a large language-vision-speech model with efficient modality
alignments, which can simultaneously support interactions under various
modality combinations. Stream-Omni employs LLM as the backbone and aligns the
vision and speech to the text based on their relationships. For vision that is
semantically complementary to text, Stream-Omni uses sequence-dimension
concatenation to achieve vision-text alignment. For speech that is semantically
consistent with text, Stream-Omni introduces a CTC-based layer-dimension
mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve
modality alignments with less data (especially speech), enabling the transfer
of text capabilities to other modalities. Experiments on various benchmarks
demonstrate that Stream-Omni achieves strong performance on visual
understanding, speech interaction, and vision-grounded speech interaction
tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously
provide intermediate text outputs (such as ASR transcriptions and model
responses) during speech interaction, offering users a comprehensive multimodal
experience.