Omni-Diffusion: Vereinheitlichtes multimodales Verständnis und Generierung mit maskierter diskreter Diffusion

Zusammenfassung

Während neuere multimodale große Sprachmodelle (MLLMs) beeindruckende Fortschritte erzielt haben, setzen sie überwiegend auf eine konventionelle autoregressive Architektur als Rückgrat, sodass erheblicher Spielraum bleibt, um effektive und effiziente Alternativen im architektonischen Design zu erforschen. Gleichzeitig haben aktuelle Studien diskrete Diffusionsmodelle erfolgreich in verschiedenen Bereichen wie visuellem Verständnis und Bildgenerierung angewendet und ihr beträchtliches Potenzial als vielversprechende Basis für multimodale Systeme aufgezeigt. Inspiriert von diesen wegweisenden Forschungen stellen wir Omni-Diffusion vor, das erste beliebig-zu-beliebige multimodale Sprachmodell, das vollständig auf maskenbasierten diskreten Diffusionsmodellen aufbaut und Verstehen sowie Generierung über Text, Sprache und Bilder vereinheitlicht. Omni-Diffusion verwendet ein vereinheitlichtes maskenbasiertes diskretes Diffusionsmodell, um die gemeinsame Verteilung diskreter multimodaler Tokens direkt zu erfassen. Dieser Ansatz unterstützt nicht nur bimodale Aufgaben, sondern auch komplexere Szenarien mit mehreren Modalitäten. Auf einer Vielzahl von Benchmarks übertrifft unsere Methode bestehende multimodale Systeme, die zwei oder mehr Modalitäten verarbeiten, oder hält mit ihnen Schritt, was das bedeutende Potenzial von Diffusionsmodellen für die nächste Generation multimodaler Foundation Models unterstreicht. Projektwebseite: https://omni-diffusion.github.io.

English

While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.

Omni-Diffusion: Vereinheitlichtes multimodales Verständnis und Generierung mit maskierter diskreter Diffusion

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Zusammenfassung

Support