UniDDT: Объединение мультимодального понимания и генерации с помощью разделенного диффузионного трансформатора

Аннотация

Унифицированные мультимодальные модели (UMM) стали ключевым направлением в области мультимодального интеллекта общего назначения, объединяя понимание и генерацию в единой структуре. Однако существующие UMM сталкиваются с серьезными проблемами: (1) внутренние конфликты обучения между задачами визуального понимания и генерации, приводящие к неоптимальному моделированию в обеих задачах; (2) различные пространства визуального представления для понимания и генерации, препятствующие масштабируемости; (3) чрезмерная зависимость от данных, специфичных для задачи, пренебрегающая двойственностью понимания и генерации текст-изображение. Для решения этих проблем мы предлагаем UniDDT, который использует шумовой кодировщик ViT (Noisy ViT) совместно с LLM для унификации семантического кодирования в задачах визуальной генерации и понимания, применяя отдельный декодер диффузии для разделения декодирования диффузии и декодирования текста. Благодаря этому кодировщику Noisy ViT, UniDDT способен использовать латентное пространство в качестве унифицированного визуального представления, обеспечивая бесшовную совместимость между задачами понимания и генерации. Таким образом, масштабируемость в задачах генерации и семантическая выразительность в задачах понимания могут быть сбалансированы. Кроме того, мы строим двойные структуры данных из одних и тех же пар изображение-текст, способствуя взаимозависимости между данными для генерации и понимания, чтобы использовать их внутреннюю двойственность. Обширные эксперименты демонстрируют, что UniDDT достигает эффективного объединения мультимодального понимания и генерации с улучшенной семантической согласованностью и масштабируемостью. Для задач визуальной генерации наш UniDDT достигает 0,87 баллов по GenEval и 86,9 общего балла по DPG. Для задач мультимодального понимания наш UniDDT достигает 1699,5 баллов на бенчмарке MME и 76,5 общего балла на SEEDbench.

English

Unified Multimodal Models (UMMs) have emerged as a critical direction for general-purpose multimodal intelligence, integrating understanding and generation into a single framework. However, existing UMMs face prominent challenges: (1) the inherent learning conflicts between visual understanding and generation tasks, leading to suboptimal modeling in both tasks; (2) different understanding and generation visual spaces impeding scalability; (3) over-reliance on task-specific data that neglects the duality of text-image understanding and generation. To address these challenges, we propose UniDDT, which leverages a Noisy ViT encoder along with an LLM to unify semantic encoding for visual generation and understanding tasks, while employing a separate diffusion decoder to decouple diffusion decoding from text decoding. With this Noisy ViT encoder, UniDDT is able to leverage the latent space as a unified visual representation, enabling seamless compatibility between understanding and generation tasks. Thus, the scalability within the generation tasks and the semantic expressiveness within understanding tasks can be balanced. Also, we construct dual data structures from the same image-text pairs, fostering interdependence between the generation and understanding data to exploit their inherent duality. Extensive experiments demonstrate that UniDDT achieves effective unification of multimodal understanding and generation with enhanced semantic consistency and scalability. For visual generation tasks, our UniDDT achieves 0.87 GenEval score and 86.9 DPG overall score. For multimodal understanding tasks, our UniDDT achieves 1699.5 score on MME benchmark and 76.5 overall score on SEEDbench.