DreamRenderer: Dominando el Control de Atributos Multi-Instancia en Modelos de Texto a Imagen a Gran Escala

Resumen

Los métodos de generación condicionada por imágenes, como los enfoques basados en profundidad y bordes (canny), han demostrado capacidades notables para la síntesis precisa de imágenes. Sin embargo, los modelos existentes aún enfrentan dificultades para controlar con precisión el contenido de múltiples instancias (o regiones). Incluso modelos de vanguardia como FLUX y 3DIS enfrentan desafíos, como la fuga de atributos entre instancias, lo que limita el control del usuario. Para abordar estos problemas, presentamos DreamRenderer, un enfoque que no requiere entrenamiento y está construido sobre el modelo FLUX. DreamRenderer permite a los usuarios controlar el contenido de cada instancia mediante cuadros delimitadores o máscaras, asegurando al mismo tiempo una armonía visual general. Proponemos dos innovaciones clave: 1) Tokens de Imagen Puente para la Vinculación Dura de Atributos de Texto, que utiliza tokens de imagen replicados como tokens puente para garantizar que los embeddings de texto T5, preentrenados únicamente en datos de texto, vinculen los atributos visuales correctos para cada instancia durante la Atención Conjunta; 2) Vinculación Dura de Atributos de Imagen aplicada solo a capas vitales. A través de nuestro análisis de FLUX, identificamos las capas críticas responsables de la representación de atributos de instancia y aplicamos la Vinculación Dura de Atributos de Imagen solo en estas capas, utilizando una vinculación suave en las demás. Este enfoque garantiza un control preciso mientras se preserva la calidad de la imagen. Las evaluaciones en los benchmarks COCO-POS y COCO-MIG demuestran que DreamRenderer mejora la Tasa de Éxito de Imagen en un 17.7% sobre FLUX y mejora el rendimiento de modelos de diseño a imagen como GLIGEN y 3DIS hasta en un 26.8%. Página del proyecto: https://limuloo.github.io/DreamRenderer/.

English

Image-conditioned generation methods, such as depth- and canny-conditioned approaches, have demonstrated remarkable abilities for precise image synthesis. However, existing models still struggle to accurately control the content of multiple instances (or regions). Even state-of-the-art models like FLUX and 3DIS face challenges, such as attribute leakage between instances, which limits user control. To address these issues, we introduce DreamRenderer, a training-free approach built upon the FLUX model. DreamRenderer enables users to control the content of each instance via bounding boxes or masks, while ensuring overall visual harmony. We propose two key innovations: 1) Bridge Image Tokens for Hard Text Attribute Binding, which uses replicated image tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely on text data, bind the correct visual attributes for each instance during Joint Attention; 2) Hard Image Attribute Binding applied only to vital layers. Through our analysis of FLUX, we identify the critical layers responsible for instance attribute rendering and apply Hard Image Attribute Binding only in these layers, using soft binding in the others. This approach ensures precise control while preserving image quality. Evaluations on the COCO-POS and COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models like GLIGEN and 3DIS by up to 26.8%. Project Page: https://limuloo.github.io/DreamRenderer/.

DreamRenderer: Dominando el Control de Atributos Multi-Instancia en Modelos de Texto a Imagen a Gran Escala

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

Resumen

Support