Lavida-O : Modèles de diffusion masqués élastiques à grande échelle pour une compréhension et génération multimodales unifiées

papers.abstract

Nous proposons Lavida-O, un modèle de diffusion masqué (MDM) unifié pour la compréhension et la génération multimodales. Contrairement aux MDM multimodaux existants tels que MMaDa et Muddit, qui ne prennent en charge que des tâches simples de compréhension au niveau de l'image et la génération d'images en basse résolution, Lavida-O présente un cadre unique permettant la compréhension au niveau de l'image, le repérage d'objets, l'édition d'images et la synthèse d'images en haute résolution (1024px) à partir de texte. Lavida-O intègre une architecture novatrice de mélange élastique de transformateurs (Elastic-MoT) qui associe une branche de génération légère à une branche de compréhension plus large, soutenue par la compression de tokens, le conditionnement textuel universel et l'échantillonnage stratifié pour une génération efficace et de haute qualité. Lavida-O intègre en outre une planification et une auto-réflexion itérative dans les tâches de génération et d'édition d'images, améliorant de manière fluide la qualité de génération grâce à ses capacités de compréhension. Lavida-O atteint des performances de pointe sur un large éventail de benchmarks, notamment le repérage d'objets RefCOCO, la génération d'images à partir de texte GenEval et l'édition d'images ImgEdit, surpassant les modèles autorégressifs et les modèles de diffusion continue existants tels que Qwen2.5-VL et FluxKontext-dev, tout en offrant une accélération considérable lors de l'inférence. Ces avancées établissent Lavida-O comme un nouveau paradigme pour le raisonnement et la génération multimodaux évolutifs.

English

We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal understanding and generation. Unlike existing multimodal MDMs such as MMaDa and Muddit which only support simple image-level understanding tasks and low-resolution image generation, Lavida-O presents a single framework that enables image-level understanding, object grounding, image editing, and high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a lightweight generation branch with a larger understanding branch, supported by token compression, universal text conditioning and stratified sampling for efficient and high-quality generation. Lavida-O further incorporates planning and iterative self-reflection in image generation and editing tasks, seamlessly boosting generation quality with its understanding capabilities. Lavida-O achieves state-of-the-art performance on a wide range of benchmarks including RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image editing, outperforming existing autoregressive models and continuous diffusion models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable speedup at inference. These advances establish Lavida-O as a new paradigm for scalable multimodal reasoning and generation.

Lavida-O : Modèles de diffusion masqués élastiques à grande échelle pour une compréhension et génération multimodales unifiées

Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

papers.abstract

Support