루미나-디무(Lumina-DiMOO): 다중 모달 생성 및 이해를 위한 범용 확산 대형 언어 모델
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
October 7, 2025
저자: Yi Xin, Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai, Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang, Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu
cs.AI
초록
우리는 원활한 다중 모달 생성 및 이해를 위한 오픈소스 기반 모델인 Lumina-DiMOO를 소개한다. Lumina-DiMOO는 다양한 모달리티 간의 입력과 출력을 처리하기 위해 완전히 이산적인 확산 모델링을 활용함으로써 기존의 통합 모델들과 차별화된다. 이 혁신적인 접근 방식은 Lumina-DiMOO가 이전의 자기회귀(AR) 또는 하이브리드 AR-확산 패러다임에 비해 더 높은 샘플링 효율성을 달성하고, 텍스트-이미지 생성, 이미지-이미지 생성(예: 이미지 편집, 주제 기반 생성, 이미지 인페인팅 등), 그리고 이미지 이해를 포함한 광범위한 다중 모달 작업을 능숙하게 지원할 수 있게 한다. Lumina-DiMOO는 여러 벤치마크에서 최첨단 성능을 달성하며, 기존의 오픈소스 통합 다중 모달 모델들을 능가한다. 다중 모달 및 이산 확산 모델 연구의 추가 발전을 촉진하기 위해, 우리는 코드와 체크포인트를 커뮤니티에 공개한다. 프로젝트 페이지: https://synbol.github.io/Lumina-DiMOO.
English
We introduce Lumina-DiMOO, an open-source foundational model for seamless
multi-modal generation and understanding. Lumina-DiMOO sets itself apart from
prior unified models by utilizing a fully discrete diffusion modeling to handle
inputs and outputs across various modalities. This innovative approach allows
Lumina-DiMOO to achieve higher sampling efficiency compared to previous
autoregressive (AR) or hybrid AR-Diffusion paradigms and adeptly support a
broad spectrum of multi-modal tasks, including text-to-image generation,
image-to-image generation (e.g., image editing, subject-driven generation, and
image inpainting, etc.), as well as image understanding. Lumina-DiMOO achieves
state-of-the-art performance on multiple benchmarks, surpassing existing
open-source unified multi-modal models. To foster further advancements in
multi-modal and discrete diffusion model research, we release our code and
checkpoints to the community. Project Page:
https://synbol.github.io/Lumina-DiMOO.