Omni-Diffusion: Comprensione e Generazione Multimodale Unificata con Diffusione Discreta Maschera

Abstract

Sebbene i recenti modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano compiuto progressi impressionanti, essi impiegano prevalentemente un'architettura autoregressiva convenzionale come backbone, lasciando ampio spazio all'esplorazione di alternative efficaci ed efficienti nel design architetturale. Parallelamente, studi recenti hanno applicato con successo modelli di diffusione discreta a vari domini, come la comprensione visiva e la generazione di immagini, rivelando il loro notevole potenziale come backbone promettente per sistemi multimodali. Traendo ispirazione da queste ricerche pionieristiche, introduciamo Omni-Diffusion, il primo modello linguistico multimodale da-qualsiasi-a-qualsiasi costruito interamente su modelli di diffusione discreta basati su mascheramento, che unifica comprensione e generazione attraverso testo, parlato e immagini. Omni-Diffusion utilizza un modello unificato di diffusione discreta basato su mascheramento per catturare direttamente la distribuzione congiunta sui token multimodali discreti. Questo approccio supporta non solo task bimodali, ma anche scenari più complessi che coinvolgono multiple modalità. Su un insieme diversificato di benchmark, il nostro metodo supera o ottiene prestazioni equivalenti a sistemi multimodali esistenti che elaborano due o più modalità, evidenziando le significative potenzialità dei modelli di diffusione nell'alimentare la prossima generazione di modelli fondazionali multimodali. Pagina web del progetto: https://omni-diffusion.github.io.

English

While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.

Omni-Diffusion: Comprensione e Generazione Multimodale Unificata con Diffusione Discreta Maschera

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Abstract

Support