Omni-Diffusion : Compréhension et génération multimodales unifiées par diffusion discrète masquée

Résumé

Bien que les modèles de langage multimodaux (MLLM) récents aient réalisé des progrès impressionnants, ils emploient principalement une architecture autogressive conventionnelle comme ossature, laissant un champ important à l'exploration d'alternatives efficaces et efficientes en matière de conception architecturale. Parallèlement, des études récentes ont appliqué avec succès des modèles de diffusion discrets à divers domaines, tels que la compréhension visuelle et la génération d'images, révélant leur potentiel considérable en tant qu'ossature prometteuse pour les systèmes multimodaux. Nous nous inspirons de ces recherches pionnières pour présenter Omni-Diffusion, le premier modèle de langage multimodal tout-à-tout entièrement construit sur des modèles de diffusion discrets basés sur le masquage, qui unifie la compréhension et la génération à travers le texte, la parole et les images. Omni-Diffusion utilise un modèle de diffusion discret unifié basé sur le masquage pour capturer directement la distribution conjointe sur les jetons multimodaux discrets. Cette approche prend en charge non seulement les tâches bimodales, mais aussi des scénarios plus complexes impliquant de multiples modalités. Sur un ensemble diversifié de benchmarks, notre méthode surpasse ou égale les systèmes multimodaux existants qui traitent deux modalités ou plus, soulignant le potentiel significatif des modèles de diffusion pour alimenter la prochaine génération de modèles fondationnels multimodaux. Page web du projet : https://omni-diffusion.github.io.

English

While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.

Omni-Diffusion : Compréhension et génération multimodales unifiées par diffusion discrète masquée

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Résumé

Support