Omni-Diffusion: Comprensione e Generazione Multimodale Unificata con Diffusione Discreta Maschera
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion
March 6, 2026
Autori: Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu
cs.AI
Abstract
Sebbene i recenti modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano compiuto progressi impressionanti, essi impiegano prevalentemente un'architettura autoregressiva convenzionale come backbone, lasciando ampio spazio all'esplorazione di alternative efficaci ed efficienti nel design architetturale. Parallelamente, studi recenti hanno applicato con successo modelli di diffusione discreta a vari domini, come la comprensione visiva e la generazione di immagini, rivelando il loro notevole potenziale come backbone promettente per sistemi multimodali. Traendo ispirazione da queste ricerche pionieristiche, introduciamo Omni-Diffusion, il primo modello linguistico multimodale da-qualsiasi-a-qualsiasi costruito interamente su modelli di diffusione discreta basati su mascheramento, che unifica comprensione e generazione attraverso testo, parlato e immagini. Omni-Diffusion utilizza un modello unificato di diffusione discreta basato su mascheramento per catturare direttamente la distribuzione congiunta sui token multimodali discreti. Questo approccio supporta non solo task bimodali, ma anche scenari più complessi che coinvolgono multiple modalità. Su un insieme diversificato di benchmark, il nostro metodo supera o ottiene prestazioni equivalenti a sistemi multimodali esistenti che elaborano due o più modalità, evidenziando le significative potenzialità dei modelli di diffusione nell'alimentare la prossima generazione di modelli fondazionali multimodali. Pagina web del progetto: https://omni-diffusion.github.io.
English
While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.