ChatPaper.aiChatPaper

Stream-Omni: Interazioni Multimodali Simultanee con Modelli Linguistici-Visivi-Vocali di Grande Scala

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

June 16, 2025
Autori: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
cs.AI

Abstract

L'emergenza di modelli multimodali di grandi dimensioni (LMMs) simili a GPT-4o ha stimolato l'esplorazione dell'integrazione delle modalità di testo, visione e linguaggio per supportare interazioni multimodali più flessibili. Gli LMM esistenti tipicamente concatenano le rappresentazioni delle modalità lungo la dimensione sequenziale e le alimentano in un modello linguistico di grandi dimensioni (LLM) come backbone. Sebbene la concatenazione lungo la dimensione sequenziale sia semplice per l'integrazione delle modalità, spesso si basa pesantemente su dati su larga scala per apprendere gli allineamenti tra le modalità. In questo articolo, miriamo a modellare le relazioni tra le modalità in modo più intenzionale, ottenendo così allineamenti tra le modalità più efficienti e flessibili. A tal fine, proponiamo Stream-Omni, un modello linguistico-visivo-verbale di grandi dimensioni con allineamenti efficienti tra le modalità, che può supportare simultaneamente interazioni sotto varie combinazioni di modalità. Stream-Omni utilizza un LLM come backbone e allinea la visione e il linguaggio al testo in base alle loro relazioni. Per la visione che è semanticamente complementare al testo, Stream-Omni utilizza la concatenazione lungo la dimensione sequenziale per ottenere l'allineamento visione-testo. Per il linguaggio che è semanticamente coerente con il testo, Stream-Omni introduce una mappatura a livello di strato basata su CTC per ottenere l'allineamento linguaggio-testo. In questo modo, Stream-Omni può ottenere allineamenti tra le modalità con meno dati (specialmente per il linguaggio), consentendo il trasferimento delle capacità del testo ad altre modalità. Esperimenti su vari benchmark dimostrano che Stream-Omni ottiene prestazioni solide in compiti di comprensione visiva, interazione verbale e interazione verbale basata sulla visione. Grazie alla mappatura a livello di strato, Stream-Omni può fornire simultaneamente output testuali intermedi (come trascrizioni ASR e risposte del modello) durante l'interazione verbale, offrendo agli utenti un'esperienza multimodale completa.
English
The emergence of GPT-4o-like large multimodal models (LMMs) has raised the exploration of integrating text, vision, and speech modalities to support more flexible multimodal interaction. Existing LMMs typically concatenate representation of modalities along the sequence dimension and feed them into a large language model (LLM) backbone. While sequence-dimension concatenation is straightforward for modality integration, it often relies heavily on large-scale data to learn modality alignments. In this paper, we aim to model the relationships between modalities more purposefully, thereby achieving more efficient and flexible modality alignments. To this end, we propose Stream-Omni, a large language-vision-speech model with efficient modality alignments, which can simultaneously support interactions under various modality combinations. Stream-Omni employs LLM as the backbone and aligns the vision and speech to the text based on their relationships. For vision that is semantically complementary to text, Stream-Omni uses sequence-dimension concatenation to achieve vision-text alignment. For speech that is semantically consistent with text, Stream-Omni introduces a CTC-based layer-dimension mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve modality alignments with less data (especially speech), enabling the transfer of text capabilities to other modalities. Experiments on various benchmarks demonstrate that Stream-Omni achieves strong performance on visual understanding, speech interaction, and vision-grounded speech interaction tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously provide intermediate text outputs (such as ASR transcriptions and model responses) during speech interaction, offering users a comprehensive multimodal experience.
PDF262June 18, 2025