ChatPaper.aiChatPaper

Lumina-DiMOO: Un Modello Linguistico di Grande Dimensione a Diffusione Omni per la Generazione e Comprensione Multi-Modale

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

October 7, 2025
Autori: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI

Abstract

Presentiamo Lumina-DiMOO, un modello fondazionale open-source per la generazione e comprensione multi-modale senza soluzione di continuità. Lumina-DiMOO si distingue dai precedenti modelli unificati grazie all'utilizzo di una modellazione di diffusione completamente discreta per gestire input e output attraverso varie modalità. Questo approccio innovativo consente a Lumina-DiMOO di raggiungere una maggiore efficienza di campionamento rispetto ai precedenti paradigmi autoregressivi (AR) o ibridi AR-Diffusion e di supportare con destrezza un ampio spettro di task multi-modali, tra cui la generazione da testo a immagine, la generazione da immagine a immagine (ad esempio, editing di immagini, generazione guidata da soggetti e inpainting di immagini, ecc.), nonché la comprensione di immagini. Lumina-DiMOO ottiene prestazioni all'avanguardia su molteplici benchmark, superando i modelli multi-modali unificati open-source esistenti. Per promuovere ulteriori progressi nella ricerca sui modelli multi-modali e di diffusione discreta, rilasciamo il nostro codice e i checkpoint alla comunità. Pagina del progetto: https://synbol.github.io/Lumina-DiMOO.
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.
PDF512October 9, 2025