ChatPaper.aiChatPaper

Stream-Omni : Interactions Multimodales Simultanées avec un Modèle Langage-Vision-Parole à Grande Échelle

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

June 16, 2025
Auteurs: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
cs.AI

Résumé

L'émergence de grands modèles multimodaux (LMMs) de type GPT-4o a suscité l'exploration de l'intégration des modalités texte, vision et parole pour soutenir des interactions multimodales plus flexibles. Les LMMs existants concatènent généralement les représentations des modalités le long de la dimension séquentielle et les alimentent dans un modèle de langage massif (LLM) utilisé comme structure de base. Bien que la concaténation selon la dimension séquentielle soit une méthode simple pour l'intégration des modalités, elle repose souvent fortement sur des données à grande échelle pour apprendre les alignements entre modalités. Dans cet article, nous cherchons à modéliser les relations entre les modalités de manière plus intentionnelle, permettant ainsi des alignements de modalités plus efficaces et flexibles. À cette fin, nous proposons Stream-Omni, un grand modèle langage-vision-parole avec des alignements de modalités efficaces, capable de supporter simultanément des interactions sous diverses combinaisons de modalités. Stream-Omni utilise un LLM comme structure de base et aligne la vision et la parole au texte en fonction de leurs relations. Pour la vision, qui est sémantiquement complémentaire au texte, Stream-Omni utilise la concaténation selon la dimension séquentielle pour réaliser l'alignement vision-texte. Pour la parole, qui est sémantiquement cohérente avec le texte, Stream-Omni introduit un mappage basé sur CTC (Connectionist Temporal Classification) selon la dimension des couches pour réaliser l'alignement parole-texte. Ainsi, Stream-Omni peut réaliser des alignements de modalités avec moins de données (en particulier pour la parole), permettant le transfert des capacités textuelles vers d'autres modalités. Les expériences sur divers benchmarks démontrent que Stream-Omni obtient de solides performances sur des tâches de compréhension visuelle, d'interaction parlée et d'interaction parole ancrée dans la vision. Grâce au mappage selon la dimension des couches, Stream-Omni peut simultanément fournir des sorties textuelles intermédiaires (telles que des transcriptions ASR et des réponses du modèle) pendant l'interaction parlée, offrant aux utilisateurs une expérience multimodale complète.
English
The emergence of GPT-4o-like large multimodal models (LMMs) has raised the exploration of integrating text, vision, and speech modalities to support more flexible multimodal interaction. Existing LMMs typically concatenate representation of modalities along the sequence dimension and feed them into a large language model (LLM) backbone. While sequence-dimension concatenation is straightforward for modality integration, it often relies heavily on large-scale data to learn modality alignments. In this paper, we aim to model the relationships between modalities more purposefully, thereby achieving more efficient and flexible modality alignments. To this end, we propose Stream-Omni, a large language-vision-speech model with efficient modality alignments, which can simultaneously support interactions under various modality combinations. Stream-Omni employs LLM as the backbone and aligns the vision and speech to the text based on their relationships. For vision that is semantically complementary to text, Stream-Omni uses sequence-dimension concatenation to achieve vision-text alignment. For speech that is semantically consistent with text, Stream-Omni introduces a CTC-based layer-dimension mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve modality alignments with less data (especially speech), enabling the transfer of text capabilities to other modalities. Experiments on various benchmarks demonstrate that Stream-Omni achieves strong performance on visual understanding, speech interaction, and vision-grounded speech interaction tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously provide intermediate text outputs (such as ASR transcriptions and model responses) during speech interaction, offering users a comprehensive multimodal experience.
PDF212June 18, 2025