ChatPaper.aiChatPaper

Lavida-O: Modelli Elastici di Diffusione con Mascheramento Esteso per la Comprensione e Generazione Multimodale Unificata

Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

September 23, 2025
Autori: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI

Abstract

Proponiamo Lavida-O, un modello unificato di diffusione mascherata (Masked Diffusion Model, MDM) per la comprensione e la generazione multimodale. A differenza degli attuali MDM multimodali come MMaDa e Muddit, che supportano solo semplici task di comprensione a livello di immagine e la generazione di immagini a bassa risoluzione, Lavida-O presenta un unico framework che abilita la comprensione a livello di immagine, il grounding di oggetti, l'editing di immagini e la sintesi di immagini ad alta risoluzione (1024px) da testo. Lavida-O incorpora una nuova architettura Elastic Mixture-of-Transformers (Elastic-MoT) che combina un ramo di generazione leggero con un ramo di comprensione più ampio, supportato da compressione di token, condizionamento testuale universale e campionamento stratificato per una generazione efficiente e di alta qualità. Lavida-O integra inoltre pianificazione e auto-riflessione iterativa nei task di generazione e editing di immagini, migliorando in modo fluido la qualità della generazione grazie alle sue capacità di comprensione. Lavida-O raggiunge prestazioni all'avanguardia su un'ampia gamma di benchmark, tra cui il grounding di oggetti RefCOCO, la generazione di immagini da testo GenEval e l'editing di immagini ImgEdit, superando i modelli autoregressivi esistenti e i modelli di diffusione continua come Qwen2.5-VL e FluxKontext-dev, offrendo al contempo un notevole aumento di velocità durante l'inferenza. Questi progressi stabiliscono Lavida-O come un nuovo paradigma per il ragionamento e la generazione multimodale scalabile.
English
We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal understanding and generation. Unlike existing multimodal MDMs such as MMaDa and Muddit which only support simple image-level understanding tasks and low-resolution image generation, Lavida-O presents a single framework that enables image-level understanding, object grounding, image editing, and high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a lightweight generation branch with a larger understanding branch, supported by token compression, universal text conditioning and stratified sampling for efficient and high-quality generation. Lavida-O further incorporates planning and iterative self-reflection in image generation and editing tasks, seamlessly boosting generation quality with its understanding capabilities. Lavida-O achieves state-of-the-art performance on a wide range of benchmarks including RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image editing, outperforming existing autoregressive models and continuous diffusion models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable speedup at inference. These advances establish Lavida-O as a new paradigm for scalable multimodal reasoning and generation.
PDF114September 25, 2025