AR-Omni: Een Verenigd Autoregressief Model voor Willekeurig-naar-Willekeurig Genereren

Samenvatting

Waarneming en interactie in de echte wereld zijn van nature multimodaal en omvatten niet alleen taal, maar ook visie en spraak. Dit motiveert de ontwikkeling van "Omni" MLLM's die zowel multimodale invoer als multimodale uitvoer ondersteunen. Hoewel er een reeks Omni MLLM's is verschenen, zijn de meeste bestaande systemen nog steeds afhankelijk van extra expertcomponenten om multimodale generatie te bereiken, wat de eenvoud van uniforme training en inferie beperkt. Autoregressieve (AR) modellering, met een enkele tokenstroom, een enkel volgend-token-doel en een enkele decoder, is een elegante en schaalbare basis in het tekstdomein. Gemotiveerd door dit principe presenteren we AR-Omni, een uniforme any-to-any-model binnen het autoregressieve paradigma zonder enige expertdecoders. AR-Omni ondersteunt autoregressieve tekst- en beeldgeneratie, evenals streaming spraakgeneratie, allemaal onder een enkele Transformer-decoder. We pakken verder drie praktische problemen aan in uniforme AR-modellering: modaliteitsonevenwicht via taakbewust verliesherweging, visuele nauwkeurigheid via een lichtgewicht verlies voor perceptuele uitlijning op tokenniveau voor beeldtokens, en stabiliteit-creativiteit afwegingen via een eindige-toestand-decodermechanisme. Empirisch gezien bereikt AR-Omni een hoge kwaliteit over drie modaliteiten terwijl het realtime blijft, met het bereiken van een real-time factor van 0.88 voor spraakgeneratie.

English

Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.

AR-Omni: Een Verenigd Autoregressief Model voor Willekeurig-naar-Willekeurig Genereren

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

Samenvatting

Support