Lumina-DiMOO: Un Modello Linguistico di Grande Dimensione a Diffusione Omni per la Generazione e Comprensione Multi-Modale

Abstract

Presentiamo Lumina-DiMOO, un modello fondazionale open-source per la generazione e comprensione multi-modale senza soluzione di continuità. Lumina-DiMOO si distingue dai precedenti modelli unificati grazie all'utilizzo di una modellazione di diffusione completamente discreta per gestire input e output attraverso varie modalità. Questo approccio innovativo consente a Lumina-DiMOO di raggiungere una maggiore efficienza di campionamento rispetto ai precedenti paradigmi autoregressivi (AR) o ibridi AR-Diffusion e di supportare con destrezza un ampio spettro di task multi-modali, tra cui la generazione da testo a immagine, la generazione da immagine a immagine (ad esempio, editing di immagini, generazione guidata da soggetti e inpainting di immagini, ecc.), nonché la comprensione di immagini. Lumina-DiMOO ottiene prestazioni all'avanguardia su molteplici benchmark, superando i modelli multi-modali unificati open-source esistenti. Per promuovere ulteriori progressi nella ricerca sui modelli multi-modali e di diffusione discreta, rilasciamo il nostro codice e i checkpoint alla comunità. Pagina del progetto: https://synbol.github.io/Lumina-DiMOO.

English

We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.

Lumina-DiMOO: Un Modello Linguistico di Grande Dimensione a Diffusione Omni per la Generazione e Comprensione Multi-Modale

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

Abstract

Support