AR-Omni: 任意間生成のための統合自己回帰モデル
AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation
January 25, 2026
著者: Dongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li
cs.AI
要旨
現実世界の知覚と相互作用は本質的にマルチモーダルであり、言語だけでなく視覚や音声も包含する。この特性から、マルチモーダルな入力と出力の両方をサポートする「Omni」MLLMの開発が促進されている。一連のOmni MLLMが登場しているものの、既存システムの多くはマルチモーダル生成を実現するために追加の専門コンポーネントに依存しており、統一された訓練と推論の簡素さを制限している。一方、単一のトークンストリーム、単一の次トークン予測目標、単一のデコーダを用いる自己回帰モデリングは、テキスト領域において優雅で拡張性の高い基盤を提供する。この着想に基づき、我々は専門デコーダを一切必要とせず、自己回帰パラダイムにおける統一的any-to-anyモデルであるAR-Omniを提案する。AR-Omniは、単一のTransformerデコーダの下で、自己回帰的なテキスト・画像生成とストリーミング音声生成をサポートする。さらに、統一自己回帰モデリングにおける三つの実践的課題に対処する:タスクを意識した損失再重み付けによるモダリティ不均衡の解消、画像トークンに対する軽量なトークンレベル知覚整合性損失による視覚的忠実度の向上、有限状態デコーディング機構による安定性と創造性のトレードオフの最適化である。実験では、AR-Omniは音声生成で0.88のリアルタイム係数を達成しつつ、三モダリティにわたり高い品質を実現した。
English
Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.