Stream-Omni: Gelijktijdige multimodale interacties met een groot taal-visie-spraakmodel

Samenvatting

De opkomst van GPT-4o-achtige grote multimodale modellen (LMMs) heeft het onderzoek naar de integratie van tekst-, visuele- en spraakmodaliteiten gestimuleerd om flexibelere multimodale interactie te ondersteunen. Bestaande LMMs concateneren typisch de representaties van modaliteiten langs de sequentiedimensie en voeren deze in een groot taalmodel (LLM) als backbone. Hoewel sequentiedimensie-concatenatie eenvoudig is voor modale integratie, is het vaak sterk afhankelijk van grootschalige data om modale alignments te leren. In dit artikel streven we ernaar om de relaties tussen modaliteiten doelgerichter te modelleren, waardoor efficiëntere en flexibelere modale alignments worden bereikt. Hiertoe stellen we Stream-Omni voor, een groot taal-visie-spraakmodel met efficiënte modale alignments, dat gelijktijdig interacties onder verschillende modale combinaties kan ondersteunen. Stream-Omni gebruikt een LLM als backbone en aligneert visie en spraak aan tekst op basis van hun relaties. Voor visie die semantisch complementair is aan tekst, gebruikt Stream-Omni sequentiedimensie-concatenatie om visie-tekst-alignment te bereiken. Voor spraak die semantisch consistent is met tekst, introduceert Stream-Omni een CTC-gebaseerde laagdimensie-mapping om spraak-tekst-alignment te bereiken. Op deze manier kan Stream-Omni modale alignments bereiken met minder data (met name spraak), waardoor tekstcapaciteiten naar andere modaliteiten kunnen worden overgedragen. Experimenten op diverse benchmarks tonen aan dat Stream-Omni sterke prestaties levert bij visueel begrip, spraakinteractie en visueel-verankerde spraakinteractietaken. Dankzij de laagdimensie-mapping kan Stream-Omni gelijktijdig tussenliggende tekstuitvoeren (zoals ASR-transcripties en modelreacties) bieden tijdens spraakinteractie, wat gebruikers een uitgebreide multimodale ervaring biedt.

English

The emergence of GPT-4o-like large multimodal models (LMMs) has raised the exploration of integrating text, vision, and speech modalities to support more flexible multimodal interaction. Existing LMMs typically concatenate representation of modalities along the sequence dimension and feed them into a large language model (LLM) backbone. While sequence-dimension concatenation is straightforward for modality integration, it often relies heavily on large-scale data to learn modality alignments. In this paper, we aim to model the relationships between modalities more purposefully, thereby achieving more efficient and flexible modality alignments. To this end, we propose Stream-Omni, a large language-vision-speech model with efficient modality alignments, which can simultaneously support interactions under various modality combinations. Stream-Omni employs LLM as the backbone and aligns the vision and speech to the text based on their relationships. For vision that is semantically complementary to text, Stream-Omni uses sequence-dimension concatenation to achieve vision-text alignment. For speech that is semantically consistent with text, Stream-Omni introduces a CTC-based layer-dimension mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve modality alignments with less data (especially speech), enabling the transfer of text capabilities to other modalities. Experiments on various benchmarks demonstrate that Stream-Omni achieves strong performance on visual understanding, speech interaction, and vision-grounded speech interaction tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously provide intermediate text outputs (such as ASR transcriptions and model responses) during speech interaction, offering users a comprehensive multimodal experience.

Stream-Omni: Gelijktijdige multimodale interacties met een groot taal-visie-spraakmodel

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

Samenvatting

Support