DreamRenderer: Domando o Controle de Atributos Multi-Instância em Modelos de Texto para Imagem em Grande Escala
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models
March 17, 2025
Autores: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang
cs.AI
Resumo
Métodos de geração condicionada por imagem, como abordagens condicionadas por profundidade e bordas (canny), demonstraram habilidades notáveis para síntese precisa de imagens. No entanto, os modelos existentes ainda lutam para controlar com precisão o conteúdo de múltiplas instâncias (ou regiões). Mesmo modelos de ponta como FLUX e 3DIS enfrentam desafios, como vazamento de atributos entre instâncias, o que limita o controle do usuário. Para resolver esses problemas, introduzimos o DreamRenderer, uma abordagem sem necessidade de treinamento construída sobre o modelo FLUX. O DreamRenderer permite que os usuários controlem o conteúdo de cada instância por meio de caixas delimitadoras ou máscaras, garantindo harmonia visual geral. Propomos duas inovações principais: 1) Tokens de Imagem Ponte para Vinculação Rígida de Atributos de Texto, que utiliza tokens de imagem replicados como tokens ponte para garantir que os embeddings de texto T5, pré-treinados apenas em dados textuais, vinculem os atributos visuais corretos para cada instância durante a Atenção Conjunta; 2) Vinculação Rígida de Atributos de Imagem aplicada apenas a camadas vitais. Através da nossa análise do FLUX, identificamos as camadas críticas responsáveis pela renderização de atributos das instâncias e aplicamos a Vinculação Rígida de Atributos de Imagem apenas nessas camadas, utilizando vinculação suave nas demais. Essa abordagem garante controle preciso enquanto preserva a qualidade da imagem. Avaliações nos benchmarks COCO-POS e COCO-MIG demonstram que o DreamRenderer melhora a Taxa de Sucesso de Imagem em 17,7% em relação ao FLUX e aumenta o desempenho de modelos de layout-para-imagem como GLIGEN e 3DIS em até 26,8%. Página do Projeto: https://limuloo.github.io/DreamRenderer/.
English
Image-conditioned generation methods, such as depth- and canny-conditioned
approaches, have demonstrated remarkable abilities for precise image synthesis.
However, existing models still struggle to accurately control the content of
multiple instances (or regions). Even state-of-the-art models like FLUX and
3DIS face challenges, such as attribute leakage between instances, which limits
user control. To address these issues, we introduce DreamRenderer, a
training-free approach built upon the FLUX model. DreamRenderer enables users
to control the content of each instance via bounding boxes or masks, while
ensuring overall visual harmony. We propose two key innovations: 1) Bridge
Image Tokens for Hard Text Attribute Binding, which uses replicated image
tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely
on text data, bind the correct visual attributes for each instance during Joint
Attention; 2) Hard Image Attribute Binding applied only to vital layers.
Through our analysis of FLUX, we identify the critical layers responsible for
instance attribute rendering and apply Hard Image Attribute Binding only in
these layers, using soft binding in the others. This approach ensures precise
control while preserving image quality. Evaluations on the COCO-POS and
COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success
Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models
like GLIGEN and 3DIS by up to 26.8%. Project Page:
https://limuloo.github.io/DreamRenderer/.Summary
AI-Generated Summary