Omni-Diffusie: Verenigde Multimodale Begrip en Generatie met Gemaskeerde Discrete Diffusie

Samenvatting

Hoewel recente multimodale grote-taalmmodellen (MLLM's) indrukwekkende vooruitgang hebben geboekt, gebruiken ze voornamelijk een conventionele autoregressieve architectuur als ruggengraat, waardoor er aanzienlijke ruimte blijft om effectieve en efficiënte alternatieven in de architectuurontwerp te verkennen. Tegelijkertijd hebben recente onderzoeken met succes discrete diffusiemodellen toegepast op verschillende domeinen, zoals visueel begrip en beeldgeneratie, wat hun aanzienlijke potentieel onthult als veelbelovende ruggengraat voor multimodale systemen. Geïnspireerd door dit baanbrekende onderzoek introduceren wij Omni-Diffusion, het eerste alles-naar-alles multimodale taalmodel dat volledig is gebouwd op op masking gebaseerde discrete diffusiemodellen, waardoor begrip en generatie van tekst, spraak en afbeeldingen worden verenigd. Omni-Diffusion gebruikt een verenigd, op masking gebaseerd discrete diffusiemodel om de gezamenlijke verdeling over discrete multimodale tokens direct vast te leggen. Deze aanpak ondersteunt niet alleen bimodale taken, maar ook complexere scenario's met meerdere modaliteiten. Op een diverse reeks benchmarks presteert onze methode beter of vergelijkbaar met bestaande multimodale systemen die twee of meer modaliteiten verwerken, wat de significante belofte van diffusiemodellen benadrukt voor het aansturen van de volgende generatie multimodale foundation-modellen. Projectwebpagina: https://omni-diffusion.github.io.

English

While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.

Omni-Diffusie: Verenigde Multimodale Begrip en Generatie met Gemaskeerde Discrete Diffusie

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Samenvatting

Support