UniDDT : Unification de la compréhension et de la génération multimodales avec un Transformer à Diffusion Découplée

Résumé

Les Modèles Multimodaux Unifiés (MMU) sont devenus une direction cruciale pour l’intelligence multimodale à usage général, intégrant compréhension et génération au sein d’un unique cadre. Cependant, les MMU existants font face à des défis majeurs : (1) les conflits d’apprentissage inhérents entre les tâches de compréhension visuelle et de génération, conduisant à une modélisation sous-optimale dans les deux cas ; (2) des espaces visuels distincts pour la compréhension et la génération, entravant l’évolutivité ; (3) une dépendance excessive aux données spécifiques aux tâches, négligeant la dualité entre compréhension et génération texte-image. Pour relever ces défis, nous proposons UniDDT, qui exploite un encodeur ViT bruité ainsi qu’un LLM pour unifier le codage sémantique des tâches de génération et de compréhension visuelle, tout en utilisant un décodeur de diffusion séparé pour découpler le décodage par diffusion du décodage textuel. Grâce à cet encodeur ViT bruité, UniDDT peut tirer parti de l’espace latent comme représentation visuelle unifiée, permettant une compatibilité transparente entre les tâches de compréhension et de génération. Ainsi, l’évolutivité au sein des tâches de génération et l’expressivité sémantique dans les tâches de compréhension peuvent être équilibrées. De plus, nous construisons des structures de données duales à partir des mêmes paires image-texte, favorisant l’interdépendance entre les données de génération et de compréhension afin d’exploiter leur dualité inhérente. Des expériences approfondies montrent qu’UniDDT réalise une unification efficace de la compréhension et de la génération multimodales, avec une meilleure cohérence sémantique et une évolutivité accrue. Pour les tâches de génération visuelle, notre UniDDT obtient un score GenEval de 0,87 et un score global DPG de 86,9. Pour les tâches de compréhension multimodale, notre UniDDT atteint un score de 1699,5 sur le benchmark MME et un score global de 76,5 sur SEEDbench.

English

Unified Multimodal Models (UMMs) have emerged as a critical direction for general-purpose multimodal intelligence, integrating understanding and generation into a single framework. However, existing UMMs face prominent challenges: (1) the inherent learning conflicts between visual understanding and generation tasks, leading to suboptimal modeling in both tasks; (2) different understanding and generation visual spaces impeding scalability; (3) over-reliance on task-specific data that neglects the duality of text-image understanding and generation. To address these challenges, we propose UniDDT, which leverages a Noisy ViT encoder along with an LLM to unify semantic encoding for visual generation and understanding tasks, while employing a separate diffusion decoder to decouple diffusion decoding from text decoding. With this Noisy ViT encoder, UniDDT is able to leverage the latent space as a unified visual representation, enabling seamless compatibility between understanding and generation tasks. Thus, the scalability within the generation tasks and the semantic expressiveness within understanding tasks can be balanced. Also, we construct dual data structures from the same image-text pairs, fostering interdependence between the generation and understanding data to exploit their inherent duality. Extensive experiments demonstrate that UniDDT achieves effective unification of multimodal understanding and generation with enhanced semantic consistency and scalability. For visual generation tasks, our UniDDT achieves 0.87 GenEval score and 86.9 DPG overall score. For multimodal understanding tasks, our UniDDT achieves 1699.5 score on MME benchmark and 76.5 overall score on SEEDbench.