AR-Omni: Ein einheitliches autoregressives Modell für Any-to-Any-Generierung
AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation
January 25, 2026
papers.authors: Dongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li
cs.AI
papers.abstract
Die Wahrnehmung und Interaktion in der realen Welt sind inhärent multimodal und umfassen nicht nur Sprache, sondern auch visuelle und akustische Informationen. Dies motiviert die Entwicklung von "Omni"-MLLMs (Multimodal Large Language Models), die sowohl multimodale Eingaben als auch Ausgaben unterstützen. Obwohl eine Reihe solcher Omni-MLLMs entstanden ist, greifen die meisten bestehenden Systeme weiterhin auf zusätzliche Expertenkomponenten zurück, um multimodale Generierung zu erreichen, was die Einfachheit eines einheitlichen Trainings und Inferenzvorgangs einschränkt. Autoregressive (AR) Modellierung – mit einem einzigen Tokenstrom, einem einzigen Next-Token-Ziel und einem einzigen Decoder – stellt im Textbereich eine elegante und skalierbare Grundlage dar. Davon motiviert präsentieren wir AR-Omni, ein vereinheitlichtes Any-to-Any-Modell innerhalb des autoregressiven Paradigmas, das ohne jegliche Experten-Decoder auskommt. AR-Omni unterstützt autoregressive Text- und Bildgenerierung sowie Streaming-Sprachgenerierung, alles unter einem einzigen Transformer-Decoder. Darüber hinaus adressieren wir drei praktische Herausforderungen der vereinheitlichten AR-Modellierung: Modalitätsungleichgewicht durch aufgabenbewusste Neugewichtung des Loss, visuelle Treue durch einen leichten, tokenbasierten Perceptual-Alignment-Loss für Bild-Token sowie den Stabilitäts-Kreativitäts-Kompromiss durch einen Finite-State-Decoding-Mechanismus. Empirisch erzielt AR-Omni eine hohe Qualität über alle drei Modalitäten hinweg bei gleichzeitiger Echtzeitfähigkeit und erreicht einen Real-Time-Faktor von 0,88 für die Sprachgenerierung.
English
Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.