DreamRenderer : Maîtrise du contrôle multi-instance des attributs dans les modèles de génération d'images à grande échelle à partir de texte
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models
March 17, 2025
Auteurs: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang
cs.AI
Résumé
Les méthodes de génération conditionnée par image, telles que les approches basées sur la profondeur et les contours (canny), ont démontré des capacités remarquables pour la synthèse précise d'images. Cependant, les modèles existants peinent encore à contrôler avec précision le contenu de multiples instances (ou régions). Même les modèles de pointe comme FLUX et 3DIS rencontrent des difficultés, telles que la fuite d'attributs entre les instances, ce qui limite le contrôle utilisateur. Pour résoudre ces problèmes, nous présentons DreamRenderer, une approche sans entraînement basée sur le modèle FLUX. DreamRenderer permet aux utilisateurs de contrôler le contenu de chaque instance via des boîtes englobantes ou des masques, tout en assurant une harmonie visuelle globale. Nous proposons deux innovations clés : 1) les **Bridge Image Tokens** pour la liaison rigide des attributs textuels, qui utilisent des tokens d'image répliqués comme tokens de pont pour garantir que les embeddings textuels T5, pré-entraînés uniquement sur des données textuelles, lient les attributs visuels corrects pour chaque instance lors de l'attention conjointe ; 2) la **liaison rigide des attributs d'image** appliquée uniquement aux couches critiques. Grâce à notre analyse de FLUX, nous identifions les couches responsables du rendu des attributs d'instance et appliquons la liaison rigide des attributs d'image uniquement dans ces couches, en utilisant une liaison souple dans les autres. Cette approche assure un contrôle précis tout en préservant la qualité de l'image. Les évaluations sur les benchmarks COCO-POS et COCO-MIG montrent que DreamRenderer améliore le taux de réussite des images de 17,7 % par rapport à FLUX et améliore les performances des modèles de génération d'images à partir de mises en page comme GLIGEN et 3DIS jusqu'à 26,8 %. Page du projet : https://limuloo.github.io/DreamRenderer/.
English
Image-conditioned generation methods, such as depth- and canny-conditioned
approaches, have demonstrated remarkable abilities for precise image synthesis.
However, existing models still struggle to accurately control the content of
multiple instances (or regions). Even state-of-the-art models like FLUX and
3DIS face challenges, such as attribute leakage between instances, which limits
user control. To address these issues, we introduce DreamRenderer, a
training-free approach built upon the FLUX model. DreamRenderer enables users
to control the content of each instance via bounding boxes or masks, while
ensuring overall visual harmony. We propose two key innovations: 1) Bridge
Image Tokens for Hard Text Attribute Binding, which uses replicated image
tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely
on text data, bind the correct visual attributes for each instance during Joint
Attention; 2) Hard Image Attribute Binding applied only to vital layers.
Through our analysis of FLUX, we identify the critical layers responsible for
instance attribute rendering and apply Hard Image Attribute Binding only in
these layers, using soft binding in the others. This approach ensures precise
control while preserving image quality. Evaluations on the COCO-POS and
COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success
Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models
like GLIGEN and 3DIS by up to 26.8%. Project Page:
https://limuloo.github.io/DreamRenderer/.Summary
AI-Generated Summary