Stream-Omni: Gleichzeitige multimodale Interaktionen mit einem großen Sprach-Bild-Sprache-Modell
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
June 16, 2025
Autoren: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
cs.AI
Zusammenfassung
Das Aufkommen von GPT-4o-ähnlichen großen multimodalen Modellen (LMMs) hat die Erforschung der Integration von Text-, Bild- und Sprachmodalitäten vorangetrieben, um flexiblere multimodale Interaktionen zu ermöglichen. Bisherige LMMs verketten typischerweise die Repräsentationen der Modalitäten entlang der Sequenzdimension und speisen sie in ein großes Sprachmodell (LLM) als Rückgrat ein. Während die Verkettung entlang der Sequenzdimension eine einfache Methode zur Modalitätsintegration darstellt, ist sie oft stark auf umfangreiche Daten angewiesen, um die Ausrichtungen der Modalitäten zu erlernen. In diesem Artikel zielen wir darauf ab, die Beziehungen zwischen den Modalitäten gezielter zu modellieren, um effizientere und flexiblere Modalitätsausrichtungen zu erreichen. Zu diesem Zweck schlagen wir Stream-Omni vor, ein großes Sprach-Bild-Sprach-Modell mit effizienten Modalitätsausrichtungen, das gleichzeitig Interaktionen unter verschiedenen Modalitätskombinationen unterstützen kann. Stream-Omni verwendet ein LLM als Rückgrat und richtet Bild und Sprache basierend auf ihren Beziehungen zum Text aus. Für Bilder, die semantisch komplementär zum Text sind, verwendet Stream-Omni die Verkettung entlang der Sequenzdimension, um die Bild-Text-Ausrichtung zu erreichen. Für Sprache, die semantisch mit dem Text übereinstimmt, führt Stream-Omni eine CTC-basierte Schichtdimensionsabbildung ein, um die Sprach-Text-Ausrichtung zu erreichen. Auf diese Weise kann Stream-Omni Modalitätsausrichtungen mit weniger Daten (insbesondere Sprache) erreichen, was die Übertragung von Textfähigkeiten auf andere Modalitäten ermöglicht. Experimente auf verschiedenen Benchmarks zeigen, dass Stream-Omni starke Leistungen bei Aufgaben zur visuellen Verständnis, Sprachinteraktion und bildgestützten Sprachinteraktion erzielt. Dank der schichtdimensionalen Abbildung kann Stream-Omni gleichzeitig Zwischentextausgaben (wie ASR-Transkriptionen und Modellantworten) während der Sprachinteraktion bereitstellen und den Nutzern so ein umfassendes multimodales Erlebnis bieten.
English
The emergence of GPT-4o-like large multimodal models (LMMs) has raised the
exploration of integrating text, vision, and speech modalities to support more
flexible multimodal interaction. Existing LMMs typically concatenate
representation of modalities along the sequence dimension and feed them into a
large language model (LLM) backbone. While sequence-dimension concatenation is
straightforward for modality integration, it often relies heavily on
large-scale data to learn modality alignments. In this paper, we aim to model
the relationships between modalities more purposefully, thereby achieving more
efficient and flexible modality alignments. To this end, we propose
Stream-Omni, a large language-vision-speech model with efficient modality
alignments, which can simultaneously support interactions under various
modality combinations. Stream-Omni employs LLM as the backbone and aligns the
vision and speech to the text based on their relationships. For vision that is
semantically complementary to text, Stream-Omni uses sequence-dimension
concatenation to achieve vision-text alignment. For speech that is semantically
consistent with text, Stream-Omni introduces a CTC-based layer-dimension
mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve
modality alignments with less data (especially speech), enabling the transfer
of text capabilities to other modalities. Experiments on various benchmarks
demonstrate that Stream-Omni achieves strong performance on visual
understanding, speech interaction, and vision-grounded speech interaction
tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously
provide intermediate text outputs (such as ASR transcriptions and model
responses) during speech interaction, offering users a comprehensive multimodal
experience.