ChatPaper.aiChatPaper

Stream-Omni: Gleichzeitige multimodale Interaktionen mit einem großen Sprach-Bild-Sprache-Modell

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

June 16, 2025
Autoren: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
cs.AI

Zusammenfassung

Das Aufkommen von GPT-4o-ähnlichen großen multimodalen Modellen (LMMs) hat die Erforschung der Integration von Text-, Bild- und Sprachmodalitäten vorangetrieben, um flexiblere multimodale Interaktionen zu ermöglichen. Bisherige LMMs verketten typischerweise die Repräsentationen der Modalitäten entlang der Sequenzdimension und speisen sie in ein großes Sprachmodell (LLM) als Rückgrat ein. Während die Verkettung entlang der Sequenzdimension eine einfache Methode zur Modalitätsintegration darstellt, ist sie oft stark auf umfangreiche Daten angewiesen, um die Ausrichtungen der Modalitäten zu erlernen. In diesem Artikel zielen wir darauf ab, die Beziehungen zwischen den Modalitäten gezielter zu modellieren, um effizientere und flexiblere Modalitätsausrichtungen zu erreichen. Zu diesem Zweck schlagen wir Stream-Omni vor, ein großes Sprach-Bild-Sprach-Modell mit effizienten Modalitätsausrichtungen, das gleichzeitig Interaktionen unter verschiedenen Modalitätskombinationen unterstützen kann. Stream-Omni verwendet ein LLM als Rückgrat und richtet Bild und Sprache basierend auf ihren Beziehungen zum Text aus. Für Bilder, die semantisch komplementär zum Text sind, verwendet Stream-Omni die Verkettung entlang der Sequenzdimension, um die Bild-Text-Ausrichtung zu erreichen. Für Sprache, die semantisch mit dem Text übereinstimmt, führt Stream-Omni eine CTC-basierte Schichtdimensionsabbildung ein, um die Sprach-Text-Ausrichtung zu erreichen. Auf diese Weise kann Stream-Omni Modalitätsausrichtungen mit weniger Daten (insbesondere Sprache) erreichen, was die Übertragung von Textfähigkeiten auf andere Modalitäten ermöglicht. Experimente auf verschiedenen Benchmarks zeigen, dass Stream-Omni starke Leistungen bei Aufgaben zur visuellen Verständnis, Sprachinteraktion und bildgestützten Sprachinteraktion erzielt. Dank der schichtdimensionalen Abbildung kann Stream-Omni gleichzeitig Zwischentextausgaben (wie ASR-Transkriptionen und Modellantworten) während der Sprachinteraktion bereitstellen und den Nutzern so ein umfassendes multimodales Erlebnis bieten.
English
The emergence of GPT-4o-like large multimodal models (LMMs) has raised the exploration of integrating text, vision, and speech modalities to support more flexible multimodal interaction. Existing LMMs typically concatenate representation of modalities along the sequence dimension and feed them into a large language model (LLM) backbone. While sequence-dimension concatenation is straightforward for modality integration, it often relies heavily on large-scale data to learn modality alignments. In this paper, we aim to model the relationships between modalities more purposefully, thereby achieving more efficient and flexible modality alignments. To this end, we propose Stream-Omni, a large language-vision-speech model with efficient modality alignments, which can simultaneously support interactions under various modality combinations. Stream-Omni employs LLM as the backbone and aligns the vision and speech to the text based on their relationships. For vision that is semantically complementary to text, Stream-Omni uses sequence-dimension concatenation to achieve vision-text alignment. For speech that is semantically consistent with text, Stream-Omni introduces a CTC-based layer-dimension mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve modality alignments with less data (especially speech), enabling the transfer of text capabilities to other modalities. Experiments on various benchmarks demonstrate that Stream-Omni achieves strong performance on visual understanding, speech interaction, and vision-grounded speech interaction tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously provide intermediate text outputs (such as ASR transcriptions and model responses) during speech interaction, offering users a comprehensive multimodal experience.
PDF212June 18, 2025