ChatPaper.aiChatPaper

Alinhamento de Representação Multimodal para Geração de Imagens: Controle Entrelaçado de Texto-Imagem é Mais Fácil do que Você Pensa

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

February 27, 2025
Autores: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI

Resumo

O campo da geração avançada de texto para imagem está testemunhando o surgimento de estruturas unificadas que integram codificadores de texto poderosos, como CLIP e T5, com espinhas dorsais de Transformadores de Difusão. Embora tenham sido feitos esforços para controlar imagens de saída com condições adicionais, como canny e mapa de profundidade, ainda falta um framework abrangente para controle intercalado arbitrário de texto-imagem. Essa lacuna é especialmente evidente ao tentar mesclar conceitos ou elementos visuais de múltiplas imagens no processo de geração. Para mitigar a lacuna, realizamos experimentos preliminares mostrando que grandes modelos multimodais (LMMs) oferecem um espaço de representação compartilhado eficaz, onde imagem e texto podem ser bem alinhados para servir como condição para modelos de difusão externos. Com base nessa descoberta, propomos Dream Engine, um framework eficiente e unificado projetado para controle intercalado arbitrário de texto-imagem em modelos de geração de imagem. Construindo sobre modelos poderosos de texto para imagem como SD3.5, substituímos os codificadores originais de apenas texto incorporando codificadores de informações multimodais versáteis como QwenVL. Nossa abordagem utiliza um paradigma de treinamento em duas etapas, consistindo de alinhamento conjunto de texto-imagem e ajuste de instrução intercalada multimodal. Nossos experimentos demonstram que este método de treinamento é eficaz, alcançando uma pontuação geral de 0.69 no benchmark GenEval, e igualando o desempenho de modelos de texto para imagem de ponta como SD3.5 e FLUX.
English
The field of advanced text-to-image generation is witnessing the emergence of unified frameworks that integrate powerful text encoders, such as CLIP and T5, with Diffusion Transformer backbones. Although there have been efforts to control output images with additional conditions, like canny and depth map, a comprehensive framework for arbitrary text-image interleaved control is still lacking. This gap is especially evident when attempting to merge concepts or visual elements from multiple images in the generation process. To mitigate the gap, we conducted preliminary experiments showing that large multimodal models (LMMs) offer an effective shared representation space, where image and text can be well-aligned to serve as a condition for external diffusion models. Based on this discovery, we propose Dream Engine, an efficient and unified framework designed for arbitrary text-image interleaved control in image generation models. Building on powerful text-to-image models like SD3.5, we replace the original text-only encoders by incorporating versatile multimodal information encoders such as QwenVL. Our approach utilizes a two-stage training paradigm, consisting of joint text-image alignment and multimodal interleaved instruction tuning. Our experiments demonstrate that this training method is effective, achieving a 0.69 overall score on the GenEval benchmark, and matching the performance of state-of-the-art text-to-image models like SD3.5 and FLUX.

Summary

AI-Generated Summary

PDF283February 28, 2025