Lavida-O: Modelos de Difusão com Máscaras Elásticas e Escaláveis para Compreensão e Geração Multimodal Unificada
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation
September 23, 2025
Autores: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI
Resumo
Propomos o Lavida-O, um Modelo de Difusão Mascarado (MDM) unificado para compreensão e geração multimodal. Diferente de MDMs multimodais existentes, como MMaDa e Muddit, que suportam apenas tarefas simples de compreensão em nível de imagem e geração de imagens de baixa resolução, o Lavida-O apresenta um único framework que permite compreensão em nível de imagem, localização de objetos, edição de imagens e síntese de texto para imagem em alta resolução (1024px). O Lavida-O incorpora uma nova arquitetura de Mistura Elástica de Transformers (Elastic-MoT) que acopla um ramo de geração leve a um ramo de compreensão maior, suportado por compressão de tokens, condicionamento universal de texto e amostragem estratificada para geração eficiente e de alta qualidade. O Lavida-O ainda incorpora planejamento e autorreflexão iterativa em tarefas de geração e edição de imagens, impulsionando de forma contínua a qualidade da geração com suas capacidades de compreensão. O Lavida-O alcança desempenho de ponta em uma ampla gama de benchmarks, incluindo localização de objetos no RefCOCO, geração de texto para imagem no GenEval e edição de imagens no ImgEdit, superando modelos autoregressivos e modelos de difusão contínua, como Qwen2.5-VL e FluxKontext-dev, enquanto oferece uma aceleração considerável na inferência. Esses avanços estabelecem o Lavida-O como um novo paradigma para raciocínio e geração multimodal escalável.
English
We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal
understanding and generation. Unlike existing multimodal MDMs such as MMaDa and
Muddit which only support simple image-level understanding tasks and
low-resolution image generation, Lavida-O presents a single framework that
enables image-level understanding, object grounding, image editing, and
high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel
Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a
lightweight generation branch with a larger understanding branch, supported by
token compression, universal text conditioning and stratified sampling for
efficient and high-quality generation. Lavida-O further incorporates planning
and iterative self-reflection in image generation and editing tasks, seamlessly
boosting generation quality with its understanding capabilities. Lavida-O
achieves state-of-the-art performance on a wide range of benchmarks including
RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image
editing, outperforming existing autoregressive models and continuous diffusion
models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable
speedup at inference. These advances establish Lavida-O as a new paradigm for
scalable multimodal reasoning and generation.