Lavida-O: Elastische Grote Gemaskeerde Diffusiemodellen voor Geïntegreerde Multimodale Begrip en Generatie

Samenvatting

Wij presenteren Lavida-O, een geünificeerd Masked Diffusion Model (MDM) voor multimodale begripsvorming en generatie. In tegenstelling tot bestaande multimodale MDM's zoals MMaDa en Muddit, die alleen eenvoudige beeldniveau-begripstaken en generatie van afbeeldingen met lage resolutie ondersteunen, biedt Lavida-O een enkel raamwerk dat beeldniveau-begrip, objectlokalisatie, beeldbewerking en tekst-naar-beeld-synthese met hoge resolutie (1024px) mogelijk maakt. Lavida-O integreert een innovatieve Elastic Mixture-of-Transformers (Elastic-MoT) architectuur die een lichtgewicht generatietak koppelt aan een grotere begripstak, ondersteund door tokencompressie, universele tekstconditionering en gelaagde steekproeven voor efficiënte en hoogwaardige generatie. Lavida-O voegt verder planning en iteratieve zelfreflectie toe in beeldgeneratie- en bewerkingstaken, waardoor de generatiekwaliteit naadloos wordt verbeterd met zijn begripsmogelijkheden. Lavida-O behaalt state-of-the-art prestaties op een breed scala aan benchmarks, waaronder RefCOCO objectlokalisatie, GenEval tekst-naar-beeld-generatie en ImgEdit beeldbewerking, en overtreft bestaande autoregressieve modellen en continue diffusiemodellen zoals Qwen2.5-VL en FluxKontext-dev, terwijl het een aanzienlijke versnelling biedt tijdens inferentie. Deze vooruitgang positioneert Lavida-O als een nieuw paradigma voor schaalbare multimodale redenering en generatie.

English

We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal understanding and generation. Unlike existing multimodal MDMs such as MMaDa and Muddit which only support simple image-level understanding tasks and low-resolution image generation, Lavida-O presents a single framework that enables image-level understanding, object grounding, image editing, and high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a lightweight generation branch with a larger understanding branch, supported by token compression, universal text conditioning and stratified sampling for efficient and high-quality generation. Lavida-O further incorporates planning and iterative self-reflection in image generation and editing tasks, seamlessly boosting generation quality with its understanding capabilities. Lavida-O achieves state-of-the-art performance on a wide range of benchmarks including RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image editing, outperforming existing autoregressive models and continuous diffusion models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable speedup at inference. These advances establish Lavida-O as a new paradigm for scalable multimodal reasoning and generation.

Lavida-O: Elastische Grote Gemaskeerde Diffusiemodellen voor Geïntegreerde Multimodale Begrip en Generatie

Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

Samenvatting

Support