ChatPaper.aiChatPaper

DreamRenderer : Maîtrise du contrôle multi-instance des attributs dans les modèles de génération d'images à grande échelle à partir de texte

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

March 17, 2025
Auteurs: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang
cs.AI

Résumé

Les méthodes de génération conditionnée par image, telles que les approches basées sur la profondeur et les contours (canny), ont démontré des capacités remarquables pour la synthèse précise d'images. Cependant, les modèles existants peinent encore à contrôler avec précision le contenu de multiples instances (ou régions). Même les modèles de pointe comme FLUX et 3DIS rencontrent des difficultés, telles que la fuite d'attributs entre les instances, ce qui limite le contrôle utilisateur. Pour résoudre ces problèmes, nous présentons DreamRenderer, une approche sans entraînement basée sur le modèle FLUX. DreamRenderer permet aux utilisateurs de contrôler le contenu de chaque instance via des boîtes englobantes ou des masques, tout en assurant une harmonie visuelle globale. Nous proposons deux innovations clés : 1) les **Bridge Image Tokens** pour la liaison rigide des attributs textuels, qui utilisent des tokens d'image répliqués comme tokens de pont pour garantir que les embeddings textuels T5, pré-entraînés uniquement sur des données textuelles, lient les attributs visuels corrects pour chaque instance lors de l'attention conjointe ; 2) la **liaison rigide des attributs d'image** appliquée uniquement aux couches critiques. Grâce à notre analyse de FLUX, nous identifions les couches responsables du rendu des attributs d'instance et appliquons la liaison rigide des attributs d'image uniquement dans ces couches, en utilisant une liaison souple dans les autres. Cette approche assure un contrôle précis tout en préservant la qualité de l'image. Les évaluations sur les benchmarks COCO-POS et COCO-MIG montrent que DreamRenderer améliore le taux de réussite des images de 17,7 % par rapport à FLUX et améliore les performances des modèles de génération d'images à partir de mises en page comme GLIGEN et 3DIS jusqu'à 26,8 %. Page du projet : https://limuloo.github.io/DreamRenderer/.
English
Image-conditioned generation methods, such as depth- and canny-conditioned approaches, have demonstrated remarkable abilities for precise image synthesis. However, existing models still struggle to accurately control the content of multiple instances (or regions). Even state-of-the-art models like FLUX and 3DIS face challenges, such as attribute leakage between instances, which limits user control. To address these issues, we introduce DreamRenderer, a training-free approach built upon the FLUX model. DreamRenderer enables users to control the content of each instance via bounding boxes or masks, while ensuring overall visual harmony. We propose two key innovations: 1) Bridge Image Tokens for Hard Text Attribute Binding, which uses replicated image tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely on text data, bind the correct visual attributes for each instance during Joint Attention; 2) Hard Image Attribute Binding applied only to vital layers. Through our analysis of FLUX, we identify the critical layers responsible for instance attribute rendering and apply Hard Image Attribute Binding only in these layers, using soft binding in the others. This approach ensures precise control while preserving image quality. Evaluations on the COCO-POS and COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models like GLIGEN and 3DIS by up to 26.8%. Project Page: https://limuloo.github.io/DreamRenderer/.

Summary

AI-Generated Summary

PDF443March 18, 2025