UniDDT: Unificando la Comprensión y Generación Multimodal con Transformador de Difusión Desacoplado

Resumen

Los Modelos Multimodales Unificados (MMUs) han surgido como una dirección crítica para la inteligencia multimodal de propósito general, integrando comprensión y generación en un único marco. Sin embargo, los MMUs existentes enfrentan desafíos prominentes: (1) los conflictos de aprendizaje inherentes entre las tareas de comprensión visual y generación, lo que conduce a un modelado subóptimo en ambas tareas; (2) diferentes espacios visuales de comprensión y generación que impiden la escalabilidad; (3) una dependencia excesiva de datos específicos de tarea que descuida la dualidad de la comprensión y generación de texto e imagen. Para abordar estos desafíos, proponemos UniDDT, que aprovecha un codificador ViT ruidoso junto con un LLM para unificar la codificación semántica para tareas de generación y comprensión visual, mientras emplea un decodificador de difusión separado para desacoplar la decodificación de difusión de la decodificación de texto. Con este codificador ViT ruidoso, UniDDT puede aprovechar el espacio latente como una representación visual unificada, permitiendo una compatibilidad sin problemas entre las tareas de comprensión y generación. Así, se puede equilibrar la escalabilidad dentro de las tareas de generación y la expresividad semántica dentro de las tareas de comprensión. Además, construimos estructuras de datos duales a partir de los mismos pares imagen-texto, fomentando la interdependencia entre los datos de generación y comprensión para explotar su dualidad inherente. Extensos experimentos demuestran que UniDDT logra una unificación efectiva de la comprensión y generación multimodal con consistencia semántica y escalabilidad mejoradas. Para tareas de generación visual, nuestro UniDDT alcanza una puntuación GenEval de 0,87 y una puntuación general DPG de 86,9. Para tareas de comprensión multimodal, nuestro UniDDT alcanza una puntuación de 1699,5 en el benchmark MME y una puntuación general de 76,5 en SEEDbench.

English

Unified Multimodal Models (UMMs) have emerged as a critical direction for general-purpose multimodal intelligence, integrating understanding and generation into a single framework. However, existing UMMs face prominent challenges: (1) the inherent learning conflicts between visual understanding and generation tasks, leading to suboptimal modeling in both tasks; (2) different understanding and generation visual spaces impeding scalability; (3) over-reliance on task-specific data that neglects the duality of text-image understanding and generation. To address these challenges, we propose UniDDT, which leverages a Noisy ViT encoder along with an LLM to unify semantic encoding for visual generation and understanding tasks, while employing a separate diffusion decoder to decouple diffusion decoding from text decoding. With this Noisy ViT encoder, UniDDT is able to leverage the latent space as a unified visual representation, enabling seamless compatibility between understanding and generation tasks. Thus, the scalability within the generation tasks and the semantic expressiveness within understanding tasks can be balanced. Also, we construct dual data structures from the same image-text pairs, fostering interdependence between the generation and understanding data to exploit their inherent duality. Extensive experiments demonstrate that UniDDT achieves effective unification of multimodal understanding and generation with enhanced semantic consistency and scalability. For visual generation tasks, our UniDDT achieves 0.87 GenEval score and 86.9 DPG overall score. For multimodal understanding tasks, our UniDDT achieves 1699.5 score on MME benchmark and 76.5 overall score on SEEDbench.