Lavida-O: Elastische große maskierte Diffusionsmodelle für einheitliches multimodales Verständnis und Generierung
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation
September 23, 2025
papers.authors: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI
papers.abstract
Wir stellen Lavida-O vor, ein einheitliches Masked Diffusion Model (MDM) für multimodales Verständnis und Generierung. Im Gegensatz zu bestehenden multimodalen MDMs wie MMaDa und Muddit, die lediglich einfache Bildverständnisaufgaben und die Generierung von Bildern mit niedriger Auflösung unterstützen, bietet Lavida-O ein einheitliches Framework, das Bildverständnis, Objektlokalisierung, Bildbearbeitung und die Synthese von hochauflösenden (1024px) Text-zu-Bild-Generierungen ermöglicht. Lavida-O integriert eine neuartige Elastic Mixture-of-Transformers (Elastic-MoT)-Architektur, die einen leichten Generierungszweig mit einem umfangreicheren Verständniszweig kombiniert, unterstützt durch Token-Kompression, universelle Textkonditionierung und geschichtete Stichprobenziehung für effiziente und hochwertige Generierung. Lavida-O integriert zudem Planung und iterative Selbstreflexion in Bildgenerierungs- und Bearbeitungsaufgaben, wodurch die Generierungsqualität nahtlos durch seine Verständnisfähigkeiten gesteigert wird. Lavida-O erzielt state-of-the-art Leistungen in einer Vielzahl von Benchmarks, darunter RefCOCO für Objektlokalisierung, GenEval für Text-zu-Bild-Generierung und ImgEdit für Bildbearbeitung, und übertrifft dabei bestehende autoregressive Modelle und kontinuierliche Diffusionsmodelle wie Qwen2.5-VL und FluxKontext-dev, während es gleichzeitig eine erhebliche Beschleunigung bei der Inferenz bietet. Diese Fortschritte etablieren Lavida-O als ein neues Paradigma für skalierbares multimodales Denken und Generieren.
English
We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal
understanding and generation. Unlike existing multimodal MDMs such as MMaDa and
Muddit which only support simple image-level understanding tasks and
low-resolution image generation, Lavida-O presents a single framework that
enables image-level understanding, object grounding, image editing, and
high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel
Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a
lightweight generation branch with a larger understanding branch, supported by
token compression, universal text conditioning and stratified sampling for
efficient and high-quality generation. Lavida-O further incorporates planning
and iterative self-reflection in image generation and editing tasks, seamlessly
boosting generation quality with its understanding capabilities. Lavida-O
achieves state-of-the-art performance on a wide range of benchmarks including
RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image
editing, outperforming existing autoregressive models and continuous diffusion
models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable
speedup at inference. These advances establish Lavida-O as a new paradigm for
scalable multimodal reasoning and generation.