UniDDT: Vereinheitlichung von multimodalem Verstehen und Generieren mit entkoppeltem Diffusions-Transformator

Zusammenfassung

Einheitliche multimodale Modelle (UMMs) haben sich als entscheidende Richtung für allgemeine multimodale Intelligenz etabliert, die Verständnis und Generierung in einem einzigen Rahmenwerk vereint. Allerdings stehen bestehende UMMs vor prominenten Herausforderungen: (1) die inhärenten Lernkonflikte zwischen visuellen Verständnis- und Generierungsaufgaben, die zu suboptimaler Modellierung in beiden Aufgaben führen; (2) unterschiedliche visuelle Räume für Verständnis und Generierung, die die Skalierbarkeit behindern; (3) eine übermäßige Abhängigkeit von aufgabenspezifischen Daten, die die Dualität von Text-Bild-Verständnis und -Generierung vernachlässigt. Um diese Herausforderungen zu bewältigen, schlagen wir UniDDT vor, das einen Noisy-ViT-Encoder zusammen mit einem LLM nutzt, um die semantische Kodierung für visuelle Generierungs- und Verständnisaufgaben zu vereinheitlichen, während ein separater Diffusionsdecoder verwendet wird, um die Diffusionsdekodierung von der Textdekodierung zu entkoppeln. Mit diesem Noisy-ViT-Encoder ist UniDDT in der Lage, den latenten Raum als einheitliche visuelle Repräsentation zu nutzen und eine nahtlose Kompatibilität zwischen Verständnis- und Generierungsaufgaben zu ermöglichen. Dadurch können die Skalierbarkeit innerhalb der Generierungsaufgaben und die semantische Ausdruckskraft innerhalb der Verständnisaufgaben ausbalanciert werden. Außerdem konstruieren wir duale Datenstrukturen aus denselben Bild-Text-Paaren, fördern die gegenseitige Abhängigkeit zwischen Generierungs- und Verständnisdaten und nutzen deren inhärente Dualität. Umfangreiche Experimente zeigen, dass UniDDT eine effektive Vereinheitlichung multimodalen Verständnisses und der Generierung mit verbesserter semantischer Konsistenz und Skalierbarkeit erreicht. Für visuelle Generierungsaufgaben erreicht unser UniDDT einen GenEval-Wert von 0,87 und einen DPG-Gesamtwert von 86,9. Für multimodale Verständnisaufgaben erreicht unser UniDDT eine Punktzahl von 1699,5 auf dem MME-Benchmark und einen Gesamtwert von 76,5 auf SEEDbench.

English

Unified Multimodal Models (UMMs) have emerged as a critical direction for general-purpose multimodal intelligence, integrating understanding and generation into a single framework. However, existing UMMs face prominent challenges: (1) the inherent learning conflicts between visual understanding and generation tasks, leading to suboptimal modeling in both tasks; (2) different understanding and generation visual spaces impeding scalability; (3) over-reliance on task-specific data that neglects the duality of text-image understanding and generation. To address these challenges, we propose UniDDT, which leverages a Noisy ViT encoder along with an LLM to unify semantic encoding for visual generation and understanding tasks, while employing a separate diffusion decoder to decouple diffusion decoding from text decoding. With this Noisy ViT encoder, UniDDT is able to leverage the latent space as a unified visual representation, enabling seamless compatibility between understanding and generation tasks. Thus, the scalability within the generation tasks and the semantic expressiveness within understanding tasks can be balanced. Also, we construct dual data structures from the same image-text pairs, fostering interdependence between the generation and understanding data to exploit their inherent duality. Extensive experiments demonstrate that UniDDT achieves effective unification of multimodal understanding and generation with enhanced semantic consistency and scalability. For visual generation tasks, our UniDDT achieves 0.87 GenEval score and 86.9 DPG overall score. For multimodal understanding tasks, our UniDDT achieves 1699.5 score on MME benchmark and 76.5 overall score on SEEDbench.