ChatPaper.aiChatPaper

DreamRenderer: Domare il Controllo degli Attributi Multi-Istanza nei Modelli di Generazione di Immagini su Grande Scala da Testo

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

March 17, 2025
Autori: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang
cs.AI

Abstract

I metodi di generazione condizionata da immagini, come gli approcci basati su profondità e contorni (canny), hanno dimostrato capacità notevoli per la sintesi precisa di immagini. Tuttavia, i modelli esistenti continuano a lottare per controllare accuratamente il contenuto di più istanze (o regioni). Anche modelli all'avanguardia come FLUX e 3DIS affrontano sfide, come la fuoriuscita di attributi tra le istanze, che limita il controllo dell'utente. Per affrontare questi problemi, introduciamo DreamRenderer, un approccio senza necessità di addestramento basato sul modello FLUX. DreamRenderer consente agli utenti di controllare il contenuto di ciascuna istanza tramite bounding box o maschere, garantendo al contempo un'armonia visiva complessiva. Proponiamo due innovazioni chiave: 1) Bridge Image Tokens per il legame rigido degli attributi testuali, che utilizza token immagine replicati come token ponte per assicurare che gli embedding testuali di T5, pre-addestrati esclusivamente su dati testuali, leghino gli attributi visivi corretti per ciascuna istanza durante l'attenzione congiunta; 2) Legame rigido degli attributi immagine applicato solo agli strati vitali. Attraverso la nostra analisi di FLUX, abbiamo identificato gli strati critici responsabili del rendering degli attributi delle istanze e applicato il legame rigido degli attributi immagine solo in questi strati, utilizzando un legame morbido negli altri. Questo approccio garantisce un controllo preciso preservando la qualità dell'immagine. Le valutazioni sui benchmark COCO-POS e COCO-MIG dimostrano che DreamRenderer migliora il rapporto di successo delle immagini del 17,7% rispetto a FLUX e potenzia le prestazioni di modelli da layout a immagine come GLIGEN e 3DIS fino al 26,8%. Pagina del progetto: https://limuloo.github.io/DreamRenderer/.
English
Image-conditioned generation methods, such as depth- and canny-conditioned approaches, have demonstrated remarkable abilities for precise image synthesis. However, existing models still struggle to accurately control the content of multiple instances (or regions). Even state-of-the-art models like FLUX and 3DIS face challenges, such as attribute leakage between instances, which limits user control. To address these issues, we introduce DreamRenderer, a training-free approach built upon the FLUX model. DreamRenderer enables users to control the content of each instance via bounding boxes or masks, while ensuring overall visual harmony. We propose two key innovations: 1) Bridge Image Tokens for Hard Text Attribute Binding, which uses replicated image tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely on text data, bind the correct visual attributes for each instance during Joint Attention; 2) Hard Image Attribute Binding applied only to vital layers. Through our analysis of FLUX, we identify the critical layers responsible for instance attribute rendering and apply Hard Image Attribute Binding only in these layers, using soft binding in the others. This approach ensures precise control while preserving image quality. Evaluations on the COCO-POS and COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models like GLIGEN and 3DIS by up to 26.8%. Project Page: https://limuloo.github.io/DreamRenderer/.
PDF443March 18, 2025