ChatPaper.aiChatPaper

Lumina-DiMOO: マルチモーダル生成と理解のためのオムニ拡散大規模言語モデル

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

October 7, 2025
著者: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI

要旨

本論文では、シームレスなマルチモーダル生成と理解のためのオープンソース基盤モデルであるLumina-DiMOOを紹介する。Lumina-DiMOOは、従来の統一モデルとは異なり、完全に離散的な拡散モデリングを活用して、様々なモダリティにわたる入力と出力を処理する。この革新的なアプローチにより、Lumina-DiMOOは、従来の自己回帰(AR)モデルやハイブリッドAR-拡散パラダイムと比較して高いサンプリング効率を達成し、テキストから画像への生成、画像から画像への生成(例:画像編集、被写体駆動生成、画像修復など)、および画像理解を含む幅広いマルチモーダルタスクを巧みにサポートする。Lumina-DiMOOは、複数のベンチマークにおいて最先端の性能を達成し、既存のオープンソース統一マルチモーダルモデルを凌駕している。マルチモーダルおよび離散拡散モデル研究のさらなる進展を促進するため、我々はコードとチェックポイントをコミュニティに公開する。プロジェクトページ:https://synbol.github.io/Lumina-DiMOO。
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.
PDF472October 9, 2025