Omni-Diffusión: Comprensión y Generación Multimodal Unificada con Difusión Discreta Enmascarada

Resumen

Si bien los modelos de lenguaje multimodal (MLLM) recientes han logrado avances impresionantes, emplean predominantemente una arquitectura autoregresiva convencional como columna vertebral, dejando un margen significativo para explorar alternativas eficaces y eficientes en el diseño arquitectónico. Paralelamente, estudios recientes han aplicado con éxito modelos de difusión discreta a varios dominios, como la comprensión visual y la generación de imágenes, revelando su considerable potencial como columna vertebral prometedora para sistemas multimodales. Inspirándonos en estas investigaciones pioneras, presentamos Omni-Diffusion, el primer modelo de lenguaje multimodal de cualquier-modalidad-a-cualquier-modalidad construido completamente sobre modelos de difusión discreta basados en enmascaramiento, que unifica la comprensión y la generación a través de texto, voz e imágenes. Omni-Diffusion emplea un modelo unificado de difusión discreta basado en enmascaramiento para capturar directamente la distribución conjunta sobre tokens multimodales discretos. Este enfoque admite no solo tareas bimodales, sino también escenarios más complejos que involucran múltiples modalidades. En un conjunto diverso de puntos de referencia, nuestro método supera o iguala el rendimiento de los sistemas multimodales existentes que procesan dos o más modalidades, destacando la promesa significativa de los modelos de difusión para impulsar la próxima generación de modelos fundacionales multimodales. Página web del proyecto: https://omni-diffusion.github.io.

English

While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.

Omni-Diffusión: Comprensión y Generación Multimodal Unificada con Difusión Discreta Enmascarada

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Resumen

Support