Alineación de Representación Multimodal para la Generación de Imágenes: El Control Entrelazado de Texto-Imagen es más Sencillo de lo que Piensas
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
February 27, 2025
Autores: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI
Resumen
El campo de generación avanzada de texto a imagen está presenciando la aparición de marcos unificados que integran potentes codificadores de texto, como CLIP y T5, con estructuras de base de Transformadores de Difusión. Aunque ha habido esfuerzos para controlar las imágenes de salida con condiciones adicionales, como el mapa canny y la profundidad, todavía falta un marco integral para el control entrelazado arbitrario de texto-imagen. Esta brecha es especialmente evidente al intentar fusionar conceptos o elementos visuales de múltiples imágenes en el proceso de generación. Para mitigar la brecha, realizamos experimentos preliminares que muestran que los grandes modelos multimodales (LMMs) ofrecen un espacio de representación compartido efectivo, donde la imagen y el texto pueden estar bien alineados para servir como condición para modelos de difusión externos. Basándonos en este descubrimiento, proponemos Dream Engine, un marco eficiente y unificado diseñado para el control entrelazado arbitrario de texto-imagen en modelos de generación de imágenes. Construyendo sobre potentes modelos de texto a imagen como SD3.5, reemplazamos los codificadores originales de solo texto incorporando codificadores de información multimodal versátiles como QwenVL. Nuestro enfoque utiliza un paradigma de entrenamiento de dos etapas, que consiste en la alineación conjunta de texto-imagen y ajuste de instrucciones entrelazadas multimodales. Nuestros experimentos demuestran que este método de entrenamiento es efectivo, logrando una puntuación general de 0.69 en el banco de pruebas GenEval, y emparejando el rendimiento de modelos de texto a imagen de última generación como SD3.5 y FLUX.
English
The field of advanced text-to-image generation is witnessing the emergence of
unified frameworks that integrate powerful text encoders, such as CLIP and T5,
with Diffusion Transformer backbones. Although there have been efforts to
control output images with additional conditions, like canny and depth map, a
comprehensive framework for arbitrary text-image interleaved control is still
lacking. This gap is especially evident when attempting to merge concepts or
visual elements from multiple images in the generation process. To mitigate the
gap, we conducted preliminary experiments showing that large multimodal models
(LMMs) offer an effective shared representation space, where image and text can
be well-aligned to serve as a condition for external diffusion models. Based on
this discovery, we propose Dream Engine, an efficient and unified framework
designed for arbitrary text-image interleaved control in image generation
models. Building on powerful text-to-image models like SD3.5, we replace the
original text-only encoders by incorporating versatile multimodal information
encoders such as QwenVL. Our approach utilizes a two-stage training paradigm,
consisting of joint text-image alignment and multimodal interleaved instruction
tuning. Our experiments demonstrate that this training method is effective,
achieving a 0.69 overall score on the GenEval benchmark, and matching the
performance of state-of-the-art text-to-image models like SD3.5 and FLUX.Summary
AI-Generated Summary