Lumina-DiMOO: Een Omni Diffusie Taalmodel voor Multi-Modale Generatie en Begrip
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
October 7, 2025
Auteurs: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI
Samenvatting
We introduceren Lumina-DiMOO, een open-source fundamenteel model voor naadloze multi-modale generatie en begrip. Lumina-DiMOO onderscheidt zich van eerdere geünificeerde modellen door gebruik te maken van een volledig discreet diffusiemodel om invoer en uitvoer over verschillende modaliteiten te verwerken. Deze innovatieve aanpak stelt Lumina-DiMOO in staat om een hogere samplingefficiëntie te bereiken in vergelijking met eerdere autoregressieve (AR) of hybride AR-Diffusie paradigma's en ondersteunt vaardig een breed scala aan multi-modale taken, waaronder tekst-naar-beeldgeneratie, beeld-naar-beeldgeneratie (bijvoorbeeld beeldbewerking, onderwerpgestuurde generatie en beeldinpainting), evenals beeldbegrip. Lumina-DiMOO behaalt state-of-the-art prestaties op meerdere benchmarks en overtreft bestaande open-source geünificeerde multi-modale modellen. Om verdere vooruitgang in multi-modale en discrete diffusiemodelonderzoek te bevorderen, stellen we onze code en checkpoints beschikbaar aan de gemeenschap. Projectpagina: https://synbol.github.io/Lumina-DiMOO.
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless
multi-modal generation and understanding. Lumina-DiMOO sets itself apart from
prior unified models by utilizing a fully discrete diffusion modeling to handle
inputs and outputs across various modalities. This innovative approach allows
Lumina-DiMOO to achieve higher sampling efficiency compared to previous
autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a
broad spectrum of multi-modal tasks, including text-to-image generation,
image-to-image generation (e.g., image editing, subject-driven generation, and
image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves
state-of-the-art performance on multiple benchmarks, surpassing existing
open-source unified multi-modal models. To foster further advancements in
multi-modal and discrete diffusion model research, we release our code and
checkpoints to the community. Project Page:
https://synbol.github.io/Lumina-DiMOO.