Promoção Regional sem Treinamento para Transformadores de Difusão
Training-free Regional Prompting for Diffusion Transformers
November 4, 2024
Autores: Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang
cs.AI
Resumo
Os modelos de difusão têm demonstrado excelentes capacidades na geração de texto para imagem. Sua capacidade de compreensão semântica (ou seja, seguimento de instruções) também foi grandemente aprimorada com grandes modelos de linguagem (por exemplo, T5, Llama). No entanto, os modelos existentes não conseguem lidar perfeitamente com instruções de texto longas e complexas, especialmente quando estas contêm vários objetos com inúmeras características e relações espaciais inter-relacionadas. Embora muitos métodos de instrução regional tenham sido propostos para modelos baseados em UNet (SD1.5, SDXL), ainda não existem implementações baseadas na arquitetura recente de Transformer de Difusão (DiT), como SD3 e FLUX. Neste relatório, propomos e implementamos instrução regional para FLUX.1 com base na manipulação de atenção, o que permite ao DiT ter capacidade de geração de texto para imagem composto por detalhes finos de forma livre de treinamento. O código está disponível em https://github.com/antonioo-c/Regional-Prompting-FLUX.
English
Diffusion models have demonstrated excellent capabilities in text-to-image
generation. Their semantic understanding (i.e., prompt following) ability has
also been greatly improved with large language models (e.g., T5, Llama).
However, existing models cannot perfectly handle long and complex text prompts,
especially when the text prompts contain various objects with numerous
attributes and interrelated spatial relationships. While many regional
prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but
there are still no implementations based on the recent Diffusion Transformer
(DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and
implement regional prompting for FLUX.1 based on attention manipulation, which
enables DiT with fined-grained compositional text-to-image generation
capability in a training-free manner. Code is available at
https://github.com/antonioo-c/Regional-Prompting-FLUX.Summary
AI-Generated Summary