Lumina-DiMOO: Un Modelo de Lenguaje de Gran Escala Omni Difusión para la Generación y Comprensión Multi-Modal
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
October 7, 2025
Autores: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI
Resumen
Presentamos Lumina-DiMOO, un modelo fundacional de código abierto para la generación y comprensión multimodal sin fisuras. Lumina-DiMOO se distingue de los modelos unificados anteriores al utilizar un enfoque de modelado de difusión completamente discreto para manejar entradas y salidas en diversas modalidades. Este enfoque innovador permite que Lumina-DiMOO alcance una mayor eficiencia en el muestreo en comparación con los paradigmas autoregresivos (AR) o híbridos AR-Difusión anteriores, y apoye de manera competente un amplio espectro de tareas multimodales, incluyendo la generación de texto a imagen, la generación de imagen a imagen (por ejemplo, edición de imágenes, generación basada en sujetos y restauración de imágenes, entre otros), así como la comprensión de imágenes. Lumina-DiMOO logra un rendimiento de vanguardia en múltiples benchmarks, superando a los modelos unificados multimodales de código abierto existentes. Para fomentar avances adicionales en la investigación de modelos de difusión discreta y multimodal, liberamos nuestro código y puntos de control a la comunidad. Página del proyecto: https://synbol.github.io/Lumina-DiMOO.
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless
multi-modal generation and understanding. Lumina-DiMOO sets itself apart from
prior unified models by utilizing a fully discrete diffusion modeling to handle
inputs and outputs across various modalities. This innovative approach allows
Lumina-DiMOO to achieve higher sampling efficiency compared to previous
autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a
broad spectrum of multi-modal tasks, including text-to-image generation,
image-to-image generation (e.g., image editing, subject-driven generation, and
image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves
state-of-the-art performance on multiple benchmarks, surpassing existing
open-source unified multi-modal models. To foster further advancements in
multi-modal and discrete diffusion model research, we release our code and
checkpoints to the community. Project Page:
https://synbol.github.io/Lumina-DiMOO.