ChatPaper.aiChatPaper

AR-Omni : Un modèle autorégressif unifié pour la génération tout-à-tout

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

January 25, 2026
papers.authors: Dongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li
cs.AI

papers.abstract

La perception et l'interaction dans le monde réel sont intrinsèquement multimodales, englobant non seulement le langage mais aussi la vision et la parole, ce qui motive le développement de MLLMs « Omni » prenant en charge à la fois des entrées et des sorties multimodales. Bien qu'une série de MLLMs omni ait émergé, la plupart des systèmes existants reposent encore sur des composants experts supplémentaires pour réaliser la génération multimodale, limitant ainsi la simplicité d'un entraînement et d'une inférence unifiés. La modélisation autorégressive (AR), avec un flux unique de tokens, un objectif unique de prédiction du token suivant et un décodeur unique, constitue une base élégante et évolutive dans le domaine textuel. Motivés par cela, nous présentons AR-Omni, un modèle unifié tout-à-tout dans le paradigme autorégressif, sans aucun décodeur expert. AR-Omni prend en charge la génération autorégressive de texte et d'images, ainsi que la génération de parole en flux continu, le tout sous un seul décodeur Transformer. Nous abordons en outre trois problèmes pratiques dans la modélisation AR unifiée : le déséquilibre de modalité via une repondération des pertes adaptée aux tâches, la fidélité visuelle via une fonction de perte d'alignement perceptif légère au niveau des tokens pour les tokens d'image, et les compromis stabilité-créativité via un mécanisme de décodage à états finis. Empiriquement, AR-Omni atteint une forte qualité à travers trois modalités tout en restant en temps réel, obtenant un facteur temps réel de 0,88 pour la génération de parole.
English
Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.
PDF71January 28, 2026