Lumina-DiMOO: Un Modelo de Lenguaje de Gran Escala Omni Difusión para la Generación y Comprensión Multi-Modal

Resumen

Presentamos Lumina-DiMOO, un modelo fundacional de código abierto para la generación y comprensión multimodal sin fisuras. Lumina-DiMOO se distingue de los modelos unificados anteriores al utilizar un enfoque de modelado de difusión completamente discreto para manejar entradas y salidas en diversas modalidades. Este enfoque innovador permite que Lumina-DiMOO alcance una mayor eficiencia en el muestreo en comparación con los paradigmas autoregresivos (AR) o híbridos AR-Difusión anteriores, y apoye de manera competente un amplio espectro de tareas multimodales, incluyendo la generación de texto a imagen, la generación de imagen a imagen (por ejemplo, edición de imágenes, generación basada en sujetos y restauración de imágenes, entre otros), así como la comprensión de imágenes. Lumina-DiMOO logra un rendimiento de vanguardia en múltiples benchmarks, superando a los modelos unificados multimodales de código abierto existentes. Para fomentar avances adicionales en la investigación de modelos de difusión discreta y multimodal, liberamos nuestro código y puntos de control a la comunidad. Página del proyecto: https://synbol.github.io/Lumina-DiMOO.

English

We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.

Lumina-DiMOO: Un Modelo de Lenguaje de Gran Escala Omni Difusión para la Generación y Comprensión Multi-Modal

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Resumen

Support