Омни-Диффузия: Унифицированное мультимодальное понимание и генерация с помощью маскированной дискретной диффузии

Аннотация

Хотя недавние мультимодальные большие языковые модели (MLLM) достигли впечатляющих успехов, они преимущественно используют традиционную авторегрессионную архитектуру в качестве основы, оставляя значительное пространство для поиска более эффективных и производительных альтернатив в проектировании архитектур. В то же время последние исследования успешно применили дискретные диффузионные модели в различных областях, таких как визуальное понимание и генерация изображений, раскрыв их значительный потенциал в качестве перспективной основы для мультимодальных систем. Вдохновляясь этими передовыми исследованиями, мы представляем Omni-Diffusion — первую мультимодальную языковую модель типа «любой-к-любому», полностью построенную на маскированных дискретных диффузионных моделях, которая унифицирует понимание и генерацию для текста, речи и изображений. Omni-Diffusion использует унифицированную маскированную дискретную диффузионную модель для непосредственного моделирования совместного распределения дискретных мультимодальных токенов. Данный подход поддерживает не только бимодальные задачи, но и более сложные сценарии с участием множества модальностей. На разнообразном наборе бенчмарков наш метод превосходит или показывает результаты на уровне существующих мультимодальных систем, обрабатывающих две и более модальностей, подчеркивая значительный потенциал диффузионных моделей в качестве основы для следующего поколения мультимодальных фундаментальных моделей. Страница проекта: https://omni-diffusion.github.io.

English

While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.

Омни-Диффузия: Унифицированное мультимодальное понимание и генерация с помощью маскированной дискретной диффузии

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Аннотация

Support