Lavida-O : Modèles de diffusion masqués élastiques à grande échelle pour une compréhension et génération multimodales unifiées
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation
September 23, 2025
papers.authors: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI
papers.abstract
Nous proposons Lavida-O, un modèle de diffusion masqué (MDM) unifié pour la compréhension et la génération multimodales. Contrairement aux MDM multimodaux existants tels que MMaDa et Muddit, qui ne prennent en charge que des tâches simples de compréhension au niveau de l'image et la génération d'images en basse résolution, Lavida-O présente un cadre unique permettant la compréhension au niveau de l'image, le repérage d'objets, l'édition d'images et la synthèse d'images en haute résolution (1024px) à partir de texte. Lavida-O intègre une architecture novatrice de mélange élastique de transformateurs (Elastic-MoT) qui associe une branche de génération légère à une branche de compréhension plus large, soutenue par la compression de tokens, le conditionnement textuel universel et l'échantillonnage stratifié pour une génération efficace et de haute qualité. Lavida-O intègre en outre une planification et une auto-réflexion itérative dans les tâches de génération et d'édition d'images, améliorant de manière fluide la qualité de génération grâce à ses capacités de compréhension. Lavida-O atteint des performances de pointe sur un large éventail de benchmarks, notamment le repérage d'objets RefCOCO, la génération d'images à partir de texte GenEval et l'édition d'images ImgEdit, surpassant les modèles autorégressifs et les modèles de diffusion continue existants tels que Qwen2.5-VL et FluxKontext-dev, tout en offrant une accélération considérable lors de l'inférence. Ces avancées établissent Lavida-O comme un nouveau paradigme pour le raisonnement et la génération multimodaux évolutifs.
English
We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal
understanding and generation. Unlike existing multimodal MDMs such as MMaDa and
Muddit which only support simple image-level understanding tasks and
low-resolution image generation, Lavida-O presents a single framework that
enables image-level understanding, object grounding, image editing, and
high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel
Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a
lightweight generation branch with a larger understanding branch, supported by
token compression, universal text conditioning and stratified sampling for
efficient and high-quality generation. Lavida-O further incorporates planning
and iterative self-reflection in image generation and editing tasks, seamlessly
boosting generation quality with its understanding capabilities. Lavida-O
achieves state-of-the-art performance on a wide range of benchmarks including
RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image
editing, outperforming existing autoregressive models and continuous diffusion
models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable
speedup at inference. These advances establish Lavida-O as a new paradigm for
scalable multimodal reasoning and generation.