Omni-Diffusion: Compreensão e Geração Multimodal Unificada com Difusão Discreta Mascarada

Resumo

Embora os modelos de linguagem multimodal de grande porte (MLLMs) recentes tenham dado passos impressionantes, eles empregam predominantemente uma arquitetura autoregressiva convencional como base, deixando espaço significativo para explorar alternativas eficazes e eficientes no design arquitetônico. Paralelamente, estudos recentes aplicaram com sucesso modelos de difusão discreta em vários domínios, como compreensão visual e geração de imagens, revelando seu considerável potencial como uma base promissora para sistemas multimodais. Inspirados por essas pesquisas pioneiras, apresentamos o Omni-Diffusion, o primeiro modelo de linguagem multimodal "qualquer-para-qualquer" construído inteiramente sobre modelos de difusão discreta baseados em máscaras, que unifica a compreensão e a geração em texto, fala e imagens. O Omni-Diffusion emprega um modelo unificado de difusão discreta baseado em máscaras para capturar diretamente a distribuição conjunta sobre tokens multimodais discretos. Esta abordagem suporta não apenas tarefas bimodais, mas também cenários mais complexos envolvendo múltiplas modalidades. Em um conjunto diversificado de benchmarks, nosso método supera ou apresenta desempenho equivalente aos sistemas multimodais existentes que processam duas ou mais modalidades, destacando o potencial significativo dos modelos de difusão para impulsionar a próxima geração de modelos de base multimodal. Página do projeto: https://omni-diffusion.github.io.

English

While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.

Omni-Diffusion: Compreensão e Geração Multimodal Unificada com Difusão Discreta Mascarada

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Resumo

Support