AR-Omni: Un Modello Autoregressivo Unificato per la Generazione da-Qualsiasi-a-Qualsiasi

Abstract

La percezione e l'interazione nel mondo reale sono intrinsecamente multimodali, comprendendo non solo il linguaggio ma anche la visione e la parola, il che motiva lo sviluppo di MLLM "Omni" che supportano sia input che output multimodali. Sebbene sia emersa una serie di MLLM omni, la maggior parte dei sistemi esistenti si affida ancora a componenti specialistiche aggiuntive per ottenere la generazione multimodale, limitando la semplicità dell'addestramento e dell'inferenza unificati. La modellazione autoregressiva (AR), con un unico flusso di token, un unico obiettivo di next-token e un unico decoder, rappresenta una base elegante e scalabile nel dominio testuale. Motivati da ciò, presentiamo AR-Omni, un modello unificato any-to-any nel paradigma autoregressivo privo di decoder specialistici. AR-Omni supporta la generazione autoregressiva di testo e immagini, nonché la generazione di parlato in streaming, tutto all'interno di un unico decoder Trasformatore. Affrontiamo inoltre tre problemi pratici nella modellazione AR unificata: lo squilibrio di modalità attraverso la ritaratura della loss consapevole del compito, la fedeltà visiva mediante una loss di allineamento percettivo leggera a livello di token per i token immagine, e i compromessi stabilità-creatività attraverso un meccanismo di decodifica a stati finiti. Empiricamente, AR-Omni raggiunge un'elevata qualità attraverso tre modalità mantenendo al contempo prestazioni in tempo reale, conseguendo un fattore di tempo reale di 0.88 per la generazione del parlato.

English

Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.

AR-Omni: Un Modello Autoregressivo Unificato per la Generazione da-Qualsiasi-a-Qualsiasi

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

Abstract

Support