DreamRenderer: Dominando el Control de Atributos Multi-Instancia en Modelos de Texto a Imagen a Gran Escala
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models
March 17, 2025
Autores: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang
cs.AI
Resumen
Los métodos de generación condicionada por imágenes, como los enfoques basados en profundidad y bordes (canny), han demostrado capacidades notables para la síntesis precisa de imágenes. Sin embargo, los modelos existentes aún enfrentan dificultades para controlar con precisión el contenido de múltiples instancias (o regiones). Incluso modelos de vanguardia como FLUX y 3DIS enfrentan desafíos, como la fuga de atributos entre instancias, lo que limita el control del usuario. Para abordar estos problemas, presentamos DreamRenderer, un enfoque que no requiere entrenamiento y está construido sobre el modelo FLUX. DreamRenderer permite a los usuarios controlar el contenido de cada instancia mediante cuadros delimitadores o máscaras, asegurando al mismo tiempo una armonía visual general. Proponemos dos innovaciones clave: 1) Tokens de Imagen Puente para la Vinculación Dura de Atributos de Texto, que utiliza tokens de imagen replicados como tokens puente para garantizar que los embeddings de texto T5, preentrenados únicamente en datos de texto, vinculen los atributos visuales correctos para cada instancia durante la Atención Conjunta; 2) Vinculación Dura de Atributos de Imagen aplicada solo a capas vitales. A través de nuestro análisis de FLUX, identificamos las capas críticas responsables de la representación de atributos de instancia y aplicamos la Vinculación Dura de Atributos de Imagen solo en estas capas, utilizando una vinculación suave en las demás. Este enfoque garantiza un control preciso mientras se preserva la calidad de la imagen. Las evaluaciones en los benchmarks COCO-POS y COCO-MIG demuestran que DreamRenderer mejora la Tasa de Éxito de Imagen en un 17.7% sobre FLUX y mejora el rendimiento de modelos de diseño a imagen como GLIGEN y 3DIS hasta en un 26.8%. Página del proyecto: https://limuloo.github.io/DreamRenderer/.
English
Image-conditioned generation methods, such as depth- and canny-conditioned
approaches, have demonstrated remarkable abilities for precise image synthesis.
However, existing models still struggle to accurately control the content of
multiple instances (or regions). Even state-of-the-art models like FLUX and
3DIS face challenges, such as attribute leakage between instances, which limits
user control. To address these issues, we introduce DreamRenderer, a
training-free approach built upon the FLUX model. DreamRenderer enables users
to control the content of each instance via bounding boxes or masks, while
ensuring overall visual harmony. We propose two key innovations: 1) Bridge
Image Tokens for Hard Text Attribute Binding, which uses replicated image
tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely
on text data, bind the correct visual attributes for each instance during Joint
Attention; 2) Hard Image Attribute Binding applied only to vital layers.
Through our analysis of FLUX, we identify the critical layers responsible for
instance attribute rendering and apply Hard Image Attribute Binding only in
these layers, using soft binding in the others. This approach ensures precise
control while preserving image quality. Evaluations on the COCO-POS and
COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success
Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models
like GLIGEN and 3DIS by up to 26.8%. Project Page:
https://limuloo.github.io/DreamRenderer/.Summary
AI-Generated Summary