Lavida-O: 통합 멀티모달 이해 및 생성을 위한 탄력적 대규모 마스크 확산 모델
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation
September 23, 2025
저자: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen
cs.AI
초록
우리는 다중 모달 이해 및 생성을 위한 통합 마스크 확산 모델(Masked Diffusion Model, MDM)인 Lavida-O를 제안한다. MMaDa와 Muddit와 같은 기존의 다중 모달 MDM들이 단순한 이미지 수준의 이해 작업과 저해상도 이미지 생성만을 지원하는 반면, Lavida-O는 이미지 수준의 이해, 객체 그라운딩, 이미지 편집, 그리고 고해상도(1024px) 텍스트-이미지 합성을 가능하게 하는 단일 프레임워크를 제공한다. Lavida-O는 토큰 압축, 범용 텍스트 조건화, 그리고 계층적 샘플링을 통해 효율적이고 고품질의 생성을 지원하는 경량 생성 브랜치와 더 큰 이해 브랜치를 결합한 새로운 Elastic Mixture-of-Transformers(Elastic-MoT) 아키텍처를 도입한다. Lavida-O는 이미지 생성 및 편집 작업에서 계획 및 반복적 자기 반영을 추가로 통합하여, 그 이해 능력을 통해 생성 품질을 원활하게 향상시킨다. Lavida-O는 RefCOCO 객체 그라운딩, GenEval 텍스트-이미지 생성, 그리고 ImgEdit 이미지 편집을 포함한 다양한 벤치마크에서 최첨단 성능을 달성하며, Qwen2.5-VL 및 FluxKontext-dev와 같은 기존의 자기회귀 모델 및 연속 확산 모델을 능가하면서 추론 속도에서 상당한 개선을 제공한다. 이러한 발전들은 Lavida-O를 확장 가능한 다중 모달 추론 및 생성을 위한 새로운 패러다임으로 자리매김하게 한다.
English
We propose Lavida-O, a unified Masked Diffusion Model (MDM) for multimodal
understanding and generation. Unlike existing multimodal MDMs such as MMaDa and
Muddit which only support simple image-level understanding tasks and
low-resolution image generation, Lavida-O presents a single framework that
enables image-level understanding, object grounding, image editing, and
high-resolution (1024px) text-to-image synthesis. Lavida-O incorporates a novel
Elastic Mixture-of-Transformers (Elastic-MoT) architecture that couples a
lightweight generation branch with a larger understanding branch, supported by
token compression, universal text conditioning and stratified sampling for
efficient and high-quality generation. Lavida-O further incorporates planning
and iterative self-reflection in image generation and editing tasks, seamlessly
boosting generation quality with its understanding capabilities. Lavida-O
achieves state-of-the-art performance on a wide range of benchmarks including
RefCOCO object grounding, GenEval text-to-image generation, and ImgEdit image
editing, outperforming existing autoregressive models and continuous diffusion
models such as Qwen2.5-VL and FluxKontext-dev, while offering considerable
speedup at inference. These advances establish Lavida-O as a new paradigm for
scalable multimodal reasoning and generation.