Alignement des représentations multimodales pour la génération d'images : Le contrôle entrelacé texte-image est plus simple que vous ne le pensez
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
February 27, 2025
Auteurs: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI
Résumé
Le domaine de la génération avancée d'images à partir de texte assiste à l'émergence de cadres unifiés qui intègrent des encodeurs de texte puissants, tels que CLIP et T5, avec des architectures de type Diffusion Transformer. Bien que des efforts aient été déployés pour contrôler les images générées à l'aide de conditions supplémentaires, comme les cartes de contours (canny) et de profondeur, un cadre complet pour un contrôle arbitraire entrelacé texte-image fait encore défaut. Cette lacune est particulièrement évidente lorsqu'il s'agit de fusionner des concepts ou des éléments visuels provenant de plusieurs images dans le processus de génération. Pour combler cette lacune, nous avons mené des expériences préliminaires montrant que les grands modèles multimodaux (LMMs) offrent un espace de représentation partagé efficace, où l'image et le texte peuvent être bien alignés pour servir de condition à des modèles de diffusion externes. Sur la base de cette découverte, nous proposons Dream Engine, un cadre unifié et efficace conçu pour un contrôle arbitraire entrelacé texte-image dans les modèles de génération d'images. En nous appuyant sur des modèles puissants de génération d'images à partir de texte comme SD3.5, nous remplaçons les encodeurs de texte uniquement par des encodeurs d'informations multimodales polyvalents tels que QwenVL. Notre approche utilise un paradigme d'entraînement en deux étapes, comprenant un alignement conjoint texte-image et un réglage d'instructions entrelacées multimodales. Nos expériences démontrent que cette méthode d'entraînement est efficace, atteignant un score global de 0,69 sur le benchmark GenEval, et rivalisant avec les performances des modèles de génération d'images à partir de texte de pointe comme SD3.5 et FLUX.
English
The field of advanced text-to-image generation is witnessing the emergence of
unified frameworks that integrate powerful text encoders, such as CLIP and T5,
with Diffusion Transformer backbones. Although there have been efforts to
control output images with additional conditions, like canny and depth map, a
comprehensive framework for arbitrary text-image interleaved control is still
lacking. This gap is especially evident when attempting to merge concepts or
visual elements from multiple images in the generation process. To mitigate the
gap, we conducted preliminary experiments showing that large multimodal models
(LMMs) offer an effective shared representation space, where image and text can
be well-aligned to serve as a condition for external diffusion models. Based on
this discovery, we propose Dream Engine, an efficient and unified framework
designed for arbitrary text-image interleaved control in image generation
models. Building on powerful text-to-image models like SD3.5, we replace the
original text-only encoders by incorporating versatile multimodal information
encoders such as QwenVL. Our approach utilizes a two-stage training paradigm,
consisting of joint text-image alignment and multimodal interleaved instruction
tuning. Our experiments demonstrate that this training method is effective,
achieving a 0.69 overall score on the GenEval benchmark, and matching the
performance of state-of-the-art text-to-image models like SD3.5 and FLUX.Summary
AI-Generated Summary