Lavida-O: Elastische große maskierte Diffusionsmodelle für einheitliches multimodales Verständnis und Generierung

papers.abstract

Wir stellen Lavida-O vor, ein einheitliches Masked Diffusion Model (MDM) für multimodales Verständnis und Generierung. Im Gegensatz zu bestehenden multimodalen MDMs wie MMaDa und Muddit, die lediglich einfache Bildverständnisaufgaben und die Generierung von Bildern mit niedriger Auflösung unterstützen, bietet Lavida-O ein einheitliches Framework, das Bildverständnis, Objektlokalisierung, Bildbearbeitung und die Synthese von hochauflösenden (1024px) Text-zu-Bild-Generierungen ermöglicht. Lavida-O integriert eine neuartige Elastic Mixture-of-Transformers (Elastic-MoT)-Architektur, die einen leichten Generierungszweig mit einem umfangreicheren Verständniszweig kombiniert, unterstützt durch Token-Kompression, universelle Textkonditionierung und geschichtete Stichprobenziehung für effiziente und hochwertige Generierung. Lavida-O integriert zudem Planung und iterative Selbstreflexion in Bildgenerierungs- und Bearbeitungsaufgaben, wodurch die Generierungsqualität nahtlos durch seine Verständnisfähigkeiten gesteigert wird. Lavida-O erzielt state-of-the-art Leistungen in einer Vielzahl von Benchmarks, darunter RefCOCO für Objektlokalisierung, GenEval für Text-zu-Bild-Generierung und ImgEdit für Bildbearbeitung, und übertrifft dabei bestehende autoregressive Modelle und kontinuierliche Diffusionsmodelle wie Qwen2.5-VL und FluxKontext-dev, während es gleichzeitig eine erhebliche Beschleunigung bei der Inferenz bietet. Diese Fortschritte etablieren Lavida-O als ein neues Paradigma für skalierbares multimodales Denken und Generieren.

English

We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal understanding and generation. Unlike existing multimodal MDMs such as MMaDa and Muddit which only support simple image-level understanding tasks and low-resolution image generation, Lavida-O presents a single framework that enables image-level understanding, object grounding, image editing, and high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a lightweight generation branch with a larger understanding branch, supported by token compression, universal text conditioning and stratified sampling for efficient and high-quality generation. Lavida-O further incorporates planning and iterative self-reflection in image generation and editing tasks, seamlessly boosting generation quality with its understanding capabilities. Lavida-O achieves state-of-the-art performance on a wide range of benchmarks including RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image editing, outperforming existing autoregressive models and continuous diffusion models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable speedup at inference. These advances establish Lavida-O as a new paradigm for scalable multimodal reasoning and generation.

Lavida-O: Elastische große maskierte Diffusionsmodelle für einheitliches multimodales Verständnis und Generierung

Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

papers.abstract

Support