LLaDA-o: 効率的かつ長さ適応型のオムニ拡散モデル
LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
March 1, 2026
著者: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen
cs.AI
要旨
本論文では、マルチモーダル理解と生成のための効率的で長度適応型のオムニ拡散モデルであるLLaDA-oを提案する。LLaDA-oは、テキスト理解のための離散マスク拡散と視覚生成のための連続拡散を分離しながら、固定条件に対する冗長な計算を削減する共有の簡潔で効率的なアテンション基盤によってそれらを結合する、Mixture of Diffusion(MoD)フレームワークに基づいて構築されている。MoDを発展させ、我々はさらに、アーキテクチャの変更を伴わずにマルチモーダル設定における柔軟な長さのデコードを可能にする、データ中心の長度適応戦略を導入する。大規模な実験により、LLaDA-oはマルチモーダル理解と生成のベンチマークにおいてオムニ拡散モデルの中で最先端の性能を達成し、テキストから画像への生成タスクにおいてDPG-Benchで87.04を達成したことが示されており、統一されたオムニ拡散モデリングの有効性が支持される。コードはhttps://github.com/ML-GSAI/LLaDA-o で公開されている。
English
We present LLaDA-o, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.