ChatPaper.aiChatPaper

Lumina-DiMOO: Um Modelo de Linguagem de Grande Escala Omni Difusão para Geração e Compreensão Multi-Modal

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

October 7, 2025
Autores: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI

Resumo

Apresentamos o Lumina-DiMOO, um modelo fundamental de código aberto para geração e compreensão multi-modal contínua. O Lumina-DiMOO se diferencia dos modelos unificados anteriores ao utilizar uma modelagem de difusão totalmente discreta para processar entradas e saídas em várias modalidades. Essa abordagem inovadora permite que o Lumina-DiMOO alcance maior eficiência de amostragem em comparação com os paradigmas autoregressivos (AR) ou híbridos AR-Difusão anteriores, além de suportar habilmente uma ampla gama de tarefas multi-modais, incluindo geração de texto para imagem, geração de imagem para imagem (por exemplo, edição de imagem, geração orientada por assunto e preenchimento de imagem, entre outros), bem como compreensão de imagem. O Lumina-DiMOO alcança desempenho de ponta em vários benchmarks, superando os modelos unificados multi-modais de código aberto existentes. Para promover avanços adicionais na pesquisa de modelos multi-modais e de difusão discreta, disponibilizamos nosso código e checkpoints para a comunidade. Página do Projeto: https://synbol.github.io/Lumina-DiMOO.
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.
PDF512October 9, 2025