Lumina-DiMOO: Ein omnidiffusives Großsprachmodell für multimodale Generierung und Verständnis

Zusammenfassung

Wir stellen Lumina-DiMOO vor, ein Open-Source-Grundlagenmodell für nahtlose multimodale Generierung und Verständnis. Lumina-DiMOO unterscheidet sich von früheren vereinheitlichten Modellen durch die Nutzung eines vollständig diskreten Diffusionsmodells, um Eingaben und Ausgaben über verschiedene Modalitäten hinweg zu verarbeiten. Dieser innovative Ansatz ermöglicht es Lumina-DiMOO, eine höhere Sampling-Effizienz im Vergleich zu früheren autoregressiven (AR) oder hybriden AR-Diffusions-Paradigmen zu erreichen und unterstützt geschickt ein breites Spektrum multimodaler Aufgaben, einschließlich Text-zu-Bild-Generierung, Bild-zu-Bild-Generierung (z. B. Bildbearbeitung, subjektgesteuerte Generierung und Bildinpainting) sowie Bildverständnis. Lumina-DiMOO erzielt state-of-the-art Leistung in mehreren Benchmarks und übertrifft bestehende Open-Source-vereinheitlichte multimodale Modelle. Um weitere Fortschritte in der Forschung zu multimodalen und diskreten Diffusionsmodellen zu fördern, stellen wir unseren Code und unsere Checkpoints der Gemeinschaft zur Verfügung. Projektseite: https://synbol.github.io/Lumina-DiMOO.

English

We introduce Lumina-DiMOO, an open-source foundational model for seamless multi-modal generation and understanding. Lumina-DiMOO sets itself apart from prior unified models by utilizing a fully discrete diffusion modeling to handle inputs and outputs across various modalities. This innovative approach allows Lumina-DiMOO to achieve higher sampling efficiency compared to previous autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a broad spectrum of multi-modal tasks, including text-to-image generation, image-to-image generation (e.g., image editing, subject-driven generation, and image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves state-of-the-art performance on multiple benchmarks, surpassing existing open-source unified multi-modal models. To foster further advancements in multi-modal and discrete diffusion model research, we release our code and checkpoints to the community. Project Page: https://synbol.github.io/Lumina-DiMOO.