Lumina-DiMOO : Un modèle de langage à grande échelle omni-diffusion pour la génération et la compréhension multi-modales

papers.abstract

Nous présentons Lumina-DiMOO, un modèle fondamental open-source pour la génération et la compréhension multi-modales fluides. Lumina-DiMOO se distingue des modèles unifiés précédents en utilisant une modélisation de diffusion entièrement discrète pour gérer les entrées et les sorties à travers diverses modalités. Cette approche innovante permet à Lumina-DiMOO d’atteindre une efficacité d’échantillonnage supérieure par rapport aux paradigmes autoregressifs (AR) ou hybrides AR-Diffusion précédents, et de prendre en charge avec habileté un large éventail de tâches multi-modales, incluant la génération de texte à image, la génération d’image à image (par exemple, l’édition d’image, la génération pilotée par sujet et la réparation d’image, etc.), ainsi que la compréhension d’image. Lumina-DiMOO obtient des performances de pointe sur plusieurs benchmarks, surpassant les modèles multi-modaux unifiés open-source existants. Pour favoriser des avancées supplémentaires dans la recherche sur les modèles multi-modaux et de diffusion discrète, nous mettons à disposition notre code et nos points de contrôle à la communauté. Page du projet : https://synbol.github.io/Lumina-DiMOO.

English

We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.

Lumina-DiMOO : Un modèle de langage à grande échelle omni-diffusion pour la génération et la compréhension multi-modales

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

papers.abstract

Support