ChatPaper.aiChatPaper

Lavida-O: Modelos de Difusión Enmascarados Elásticos a Gran Escala para la Comprensión y Generación Multimodal Unificada

Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

September 23, 2025
Autores: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI

Resumen

Proponemos Lavida-O, un Modelo de Difusión Enmascarado (MDM) unificado para comprensión y generación multimodal. A diferencia de los MDM multimodales existentes como MMaDa y Muddit, que solo admiten tareas simples de comprensión a nivel de imagen y generación de imágenes de baja resolución, Lavida-O presenta un marco único que permite comprensión a nivel de imagen, localización de objetos, edición de imágenes y síntesis de texto a imagen de alta resolución (1024px). Lavida-O incorpora una arquitectura novedosa de Mezcla Elástica de Transformers (Elastic-MoT) que combina una rama de generación ligera con una rama de comprensión más grande, respaldada por compresión de tokens, condicionamiento de texto universal y muestreo estratificado para una generación eficiente y de alta calidad. Lavida-O además incorpora planificación y autorreflexión iterativa en tareas de generación y edición de imágenes, mejorando sin problemas la calidad de la generación con sus capacidades de comprensión. Lavida-O logra un rendimiento de vanguardia en una amplia gama de benchmarks, incluyendo localización de objetos en RefCOCO, generación de texto a imagen en GenEval y edición de imágenes en ImgEdit, superando a modelos autoregresivos y modelos de difusión continua como Qwen2.5-VL y FluxKontext-dev, mientras ofrece una aceleración considerable en la inferencia. Estos avances establecen a Lavida-O como un nuevo paradigma para el razonamiento y la generación multimodal escalable.
English
We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal understanding and generation. Unlike existing multimodal MDMs such as MMaDa and Muddit which only support simple image-level understanding tasks and low-resolution image generation, Lavida-O presents a single framework that enables image-level understanding, object grounding, image editing, and high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a lightweight generation branch with a larger understanding branch, supported by token compression, universal text conditioning and stratified sampling for efficient and high-quality generation. Lavida-O further incorporates planning and iterative self-reflection in image generation and editing tasks, seamlessly boosting generation quality with its understanding capabilities. Lavida-O achieves state-of-the-art performance on a wide range of benchmarks including RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image editing, outperforming existing autoregressive models and continuous diffusion models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable speedup at inference. These advances establish Lavida-O as a new paradigm for scalable multimodal reasoning and generation.
PDF94September 25, 2025