UniDDT: Unificando Compreensão e Geração Multimodal com Transformer de Difusão Desacoplado

Resumo

Modelos Multimodais Unificados (UMMs) emergiram como uma direção crítica para a inteligência multimodal de uso geral, integrando compreensão e geração em um único arcabouço. No entanto, os UMMs existentes enfrentam desafios proeminentes: (1) os conflitos inerentes de aprendizado entre tarefas de compreensão visual e geração, levando a uma modelagem subótima em ambas as tarefas; (2) diferentes espaços visuais de compreensão e geração dificultando a escalabilidade; (3) dependência excessiva de dados específicos de tarefa, negligenciando a dualidade da compreensão e geração texto-imagem. Para enfrentar esses desafios, propomos o UniDDT, que utiliza um codificador Noisy ViT juntamente com um LLM para unificar a codificação semântica para tarefas de geração e compreensão visual, enquanto emprega um decodificador de difusão separado para desacoplar a decodificação por difusão da decodificação de texto. Com este codificador Noisy ViT, o UniDDT é capaz de utilizar o espaço latente como uma representação visual unificada, permitindo compatibilidade contínua entre tarefas de compreensão e geração. Assim, a escalabilidade nas tarefas de geração e a expressividade semântica nas tarefas de compreensão podem ser equilibradas. Além disso, construímos estruturas de dados duais a partir dos mesmos pares imagem-texto, promovendo interdependência entre os dados de geração e compreensão para explorar sua dualidade inerente. Experimentos extensivos demonstram que o UniDDT alcança uma unificação eficaz da compreensão e geração multimodal com consistência semântica e escalabilidade aprimoradas. Para tarefas de geração visual, nosso UniDDT obtém uma pontuação GenEval de 0,87 e uma pontuação geral DPG de 86,9. Para tarefas de compreensão multimodal, nosso UniDDT alcança uma pontuação de 1699,5 no benchmark MME e uma pontuação geral de 76,5 no SEEDbench.

English

Unified Multimodal Models (UMMs) have emerged as a critical direction for general-purpose multimodal intelligence, integrating understanding and generation into a single framework. However, existing UMMs face prominent challenges: (1) the inherent learning conflicts between visual understanding and generation tasks, leading to suboptimal modeling in both tasks; (2) different understanding and generation visual spaces impeding scalability; (3) over-reliance on task-specific data that neglects the duality of text-image understanding and generation. To address these challenges, we propose UniDDT, which leverages a Noisy ViT encoder along with an LLM to unify semantic encoding for visual generation and understanding tasks, while employing a separate diffusion decoder to decouple diffusion decoding from text decoding. With this Noisy ViT encoder, UniDDT is able to leverage the latent space as a unified visual representation, enabling seamless compatibility between understanding and generation tasks. Thus, the scalability within the generation tasks and the semantic expressiveness within understanding tasks can be balanced. Also, we construct dual data structures from the same image-text pairs, fostering interdependence between the generation and understanding data to exploit their inherent duality. Extensive experiments demonstrate that UniDDT achieves effective unification of multimodal understanding and generation with enhanced semantic consistency and scalability. For visual generation tasks, our UniDDT achieves 0.87 GenEval score and 86.9 DPG overall score. For multimodal understanding tasks, our UniDDT achieves 1699.5 score on MME benchmark and 76.5 overall score on SEEDbench.