UniDDT: Unificatie van multimodaal begrip en generatie met ontkoppelde diffusietransformer

Samenvatting

Unified Multimodale Modellen (UMM's) zijn naar voren gekomen als een cruciale richting voor algemene multimodale intelligentie, waarbij begrip en generatie in één raamwerk worden geïntegreerd. Bestaande UMM's staan echter voor prominente uitdagingen: (1) de inherente leerconflicten tussen visuele begripstaken en generatietaken, wat leidt tot suboptimale modellering in beide taken; (2) verschillende visuele ruimtes voor begrip en generatie die de schaalbaarheid belemmeren; (3) overmatige afhankelijkheid van taakspecifieke gegevens die de dualiteit van tekst-beeld begrip en generatie verwaarloost. Om deze uitdagingen aan te pakken, stellen we UniDDT voor, dat gebruikmaakt van een Noisy ViT-encoder samen met een LLM om semantische codering te verenigen voor visuele generatie- en begripstaken, terwijl een aparte diffusiedecoder wordt gebruikt om diffusiedecodering van tekstdecodering te ontkoppelen. Met deze Noisy ViT-encoder kan UniDDT de latente ruimte gebruiken als een uniforme visuele representatie, waardoor naadloze compatibiliteit tussen begrips- en generatietaken mogelijk wordt. Zo kan de schaalbaarheid binnen de generatietaken en de semantische expressiviteit binnen de begripstaken in evenwicht worden gebracht. Ook construeren we dubbele datastructuren uit dezelfde beeld-tekstparen, wat de onderlinge afhankelijkheid tussen de generatie- en begripsgegevens bevordert om hun inherente dualiteit te benutten. Uitgebreide experimenten tonen aan dat UniDDT een effectieve unificatie van multimodaal begrip en generatie bereikt met verbeterde semantische consistentie en schaalbaarheid. Voor visuele generatietaken behaalt onze UniDDT een GenEval-score van 0,87 en een DPG-totaalscore van 86,9. Voor multimodale begripstaken behaalt onze UniDDT een score van 1699,5 op de MME-benchmark en een totaalscore van 76,5 op SEEDbench.

English

Unified Multimodal Models (UMMs) have emerged as a critical direction for general-purpose multimodal intelligence, integrating understanding and generation into a single framework. However, existing UMMs face prominent challenges: (1) the inherent learning conflicts between visual understanding and generation tasks, leading to suboptimal modeling in both tasks; (2) different understanding and generation visual spaces impeding scalability; (3) over-reliance on task-specific data that neglects the duality of text-image understanding and generation. To address these challenges, we propose UniDDT, which leverages a Noisy ViT encoder along with an LLM to unify semantic encoding for visual generation and understanding tasks, while employing a separate diffusion decoder to decouple diffusion decoding from text decoding. With this Noisy ViT encoder, UniDDT is able to leverage the latent space as a unified visual representation, enabling seamless compatibility between understanding and generation tasks. Thus, the scalability within the generation tasks and the semantic expressiveness within understanding tasks can be balanced. Also, we construct dual data structures from the same image-text pairs, fostering interdependence between the generation and understanding data to exploit their inherent duality. Extensive experiments demonstrate that UniDDT achieves effective unification of multimodal understanding and generation with enhanced semantic consistency and scalability. For visual generation tasks, our UniDDT achieves 0.87 GenEval score and 86.9 DPG overall score. For multimodal understanding tasks, our UniDDT achieves 1699.5 score on MME benchmark and 76.5 overall score on SEEDbench.