ChatPaper.aiChatPaper

Lumina-DiMOO : Un modèle de langage à grande échelle omni-diffusion pour la génération et la compréhension multi-modales

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

October 7, 2025
papers.authors: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI

papers.abstract

Nous présentons Lumina-DiMOO, un modèle fondamental open-source pour la génération et la compréhension multi-modales fluides. Lumina-DiMOO se distingue des modèles unifiés précédents en utilisant une modélisation de diffusion entièrement discrète pour gérer les entrées et les sorties à travers diverses modalités. Cette approche innovante permet à Lumina-DiMOO d’atteindre une efficacité d’échantillonnage supérieure par rapport aux paradigmes autoregressifs (AR) ou hybrides AR-Diffusion précédents, et de prendre en charge avec habileté un large éventail de tâches multi-modales, incluant la génération de texte à image, la génération d’image à image (par exemple, l’édition d’image, la génération pilotée par sujet et la réparation d’image, etc.), ainsi que la compréhension d’image. Lumina-DiMOO obtient des performances de pointe sur plusieurs benchmarks, surpassant les modèles multi-modaux unifiés open-source existants. Pour favoriser des avancées supplémentaires dans la recherche sur les modèles multi-modaux et de diffusion discrète, nous mettons à disposition notre code et nos points de contrôle à la communauté. Page du projet : https://synbol.github.io/Lumina-DiMOO.
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.
PDF472October 9, 2025