Lumina-DiMOO: Um Modelo de Linguagem de Grande Escala Omni Difusão para Geração e Compreensão Multi-Modal

Resumo

Apresentamos o Lumina-DiMOO, um modelo fundamental de código aberto para geração e compreensão multi-modal contínua. O Lumina-DiMOO se diferencia dos modelos unificados anteriores ao utilizar uma modelagem de difusão totalmente discreta para processar entradas e saídas em várias modalidades. Essa abordagem inovadora permite que o Lumina-DiMOO alcance maior eficiência de amostragem em comparação com os paradigmas autoregressivos (AR) ou híbridos AR-Difusão anteriores, além de suportar habilmente uma ampla gama de tarefas multi-modais, incluindo geração de texto para imagem, geração de imagem para imagem (por exemplo, edição de imagem, geração orientada por assunto e preenchimento de imagem, entre outros), bem como compreensão de imagem. O Lumina-DiMOO alcança desempenho de ponta em vários benchmarks, superando os modelos unificados multi-modais de código aberto existentes. Para promover avanços adicionais na pesquisa de modelos multi-modais e de difusão discreta, disponibilizamos nosso código e checkpoints para a comunidade. Página do Projeto: https://synbol.github.io/Lumina-DiMOO.

English

We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.

Lumina-DiMOO: Um Modelo de Linguagem de Grande Escala Omni Difusão para Geração e Compreensão Multi-Modal

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Resumo

Support