ChatPaper.aiChatPaper

Lumina-DiMOO: Un Modelo de Lenguaje de Gran Escala Omni Difusión para la Generación y Comprensión Multi-Modal

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

October 7, 2025
Autores: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI

Resumen

Presentamos Lumina-DiMOO, un modelo fundacional de código abierto para la generación y comprensión multimodal sin fisuras. Lumina-DiMOO se distingue de los modelos unificados anteriores al utilizar un enfoque de modelado de difusión completamente discreto para manejar entradas y salidas en diversas modalidades. Este enfoque innovador permite que Lumina-DiMOO alcance una mayor eficiencia en el muestreo en comparación con los paradigmas autoregresivos (AR) o híbridos AR-Difusión anteriores, y apoye de manera competente un amplio espectro de tareas multimodales, incluyendo la generación de texto a imagen, la generación de imagen a imagen (por ejemplo, edición de imágenes, generación basada en sujetos y restauración de imágenes, entre otros), así como la comprensión de imágenes. Lumina-DiMOO logra un rendimiento de vanguardia en múltiples benchmarks, superando a los modelos unificados multimodales de código abierto existentes. Para fomentar avances adicionales en la investigación de modelos de difusión discreta y multimodal, liberamos nuestro código y puntos de control a la comunidad. Página del proyecto: https://synbol.github.io/Lumina-DiMOO.
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.
PDF472October 9, 2025