옴니-디퓨전: 마스크된 이산 디퓨전을 통한 통합 멀티모달 이해 및 생성
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion
March 6, 2026
저자: Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu
cs.AI
초록
최근 멀티모달 대규모 언어 모델(MLLM)의 발전이 두드러지고 있으나, 이러한 모델들은 주로 기존의 자기회귀적 아키텍처를 백본으로 활용하여, 효과적이면서 효율적인 대체 아키텍처 설계에 대한 탐구 여지가 상당히 남아 있습니다. 동시에 최근 연구들은 이산 확산 모델을 시각 이해 및 이미지 생성과 같은 다양한 영역에 성공적으로 적용하며, 이를 멀티모달 시스템의 유망한 백본으로서의 상당한 잠재력을 보여주고 있습니다. 이러한 선행 연구에서 영감을 받아, 본 논문은 텍스트, 음성, 이미지 간 이해와 생성을 통합하며 마스크 기반 이산 확산 모델에 완전히 기반한 최초의 임의-대-임의(any-to-any) 멀티모달 언어 모델인 Omni-Diffusion을 소개합니다. Omni-Diffusion은 통합 마스크 기반 이산 확산 모델을 사용하여 이산화된 멀티모달 토큰들의 결합 분포를 직접 학습합니다. 이 접근법은 이중모달 작업뿐만 아니라 여러 모달리티가 관여하는 더 복잡한 시나리오도 지원합니다. 다양한 벤치마크에서 본 방법론은 두 가지 이상의 모달리티를 처리하는 기존 멀티모달 시스템들을 능가하거나 동등한 성능을 보여, 확산 모델이 다음 세대 멀티모달 기초 모델의 핵심 기술로서 갖는 상당한 가능성을 강조합니다. 프로젝트 웹페이지: https://omni-diffusion.github.io.
English
While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.