Lavida-O: Эластичные крупномасштабные маскированные диффузионные модели для унифицированного мультимодального понимания и генерации
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation
September 23, 2025
Авторы: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI
Аннотация
Мы представляем Lavida-O — унифицированную модель маскированной диффузии (Masked Diffusion Model, MDM) для многомодального понимания и генерации. В отличие от существующих многомодальных MDM, таких как MMaDa и Muddit, которые поддерживают только простые задачи понимания на уровне изображений и генерацию изображений низкого разрешения, Lavida-O предлагает единую структуру, которая обеспечивает понимание на уровне изображений, локализацию объектов, редактирование изображений и синтез изображений высокого разрешения (1024 пикселя) по текстовому описанию. Lavida-O включает в себя новую архитектуру Elastic Mixture-of-Transformers (Elastic-MoT), которая объединяет легковесную ветвь генерации с более мощной ветвью понимания, поддерживаемую сжатием токенов, универсальным текстовым кондиционированием и стратифицированной выборкой для эффективной и качественной генерации. Lavida-O также интегрирует планирование и итеративное саморефлексию в задачи генерации и редактирования изображений, что позволяет плавно повышать качество генерации благодаря своим возможностям понимания. Lavida-O демонстрирует наилучшие результаты на широком спектре тестов, включая локализацию объектов на RefCOCO, генерацию изображений по тексту на GenEval и редактирование изображений на ImgEdit, превосходя существующие авторегрессивные модели и модели непрерывной диффузии, такие как Qwen2.5-VL и FluxKontext-dev, при этом обеспечивая значительное ускорение на этапе вывода. Эти достижения устанавливают Lavida-O как новую парадигму для масштабируемого многомодального рассуждения и генерации.
English
We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal
understanding and generation. Unlike existing multimodal MDMs such as MMaDa and
Muddit which only support simple image-level understanding tasks and
low-resolution image generation, Lavida-O presents a single framework that
enables image-level understanding, object grounding, image editing, and
high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel
Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a
lightweight generation branch with a larger understanding branch, supported by
token compression, universal text conditioning and stratified sampling for
efficient and high-quality generation. Lavida-O further incorporates planning
and iterative self-reflection in image generation and editing tasks, seamlessly
boosting generation quality with its understanding capabilities. Lavida-O
achieves state-of-the-art performance on a wide range of benchmarks including
RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image
editing, outperforming existing autoregressive models and continuous diffusion
models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable
speedup at inference. These advances establish Lavida-O as a new paradigm for
scalable multimodal reasoning and generation.