ChatPaper.aiChatPaper

Promoción regional sin entrenamiento para Transformadores de Difusión

Training-free Regional Prompting for Diffusion Transformers

November 4, 2024
Autores: Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang
cs.AI

Resumen

Los modelos de difusión han demostrado excelentes capacidades en la generación de texto a imagen. Su capacidad de comprensión semántica (es decir, seguimiento de la instrucción) también ha mejorado considerablemente con grandes modelos de lenguaje (por ejemplo, T5, Llama). Sin embargo, los modelos existentes no pueden manejar perfectamente instrucciones de texto largas y complejas, especialmente cuando contienen varios objetos con numerosos atributos y relaciones espaciales interrelacionadas. Aunque se han propuesto muchos métodos de instrucción regional para modelos basados en UNet (SD1.5, SDXL), aún no hay implementaciones basadas en la arquitectura reciente de Transformador de Difusión (DiT), como SD3 y FLUX. En este informe, proponemos e implementamos la instrucción regional para FLUX.1 basada en la manipulación de la atención, lo que permite a DiT tener la capacidad de generación de texto a imagen compuesto detalladamente sin necesidad de entrenamiento. El código está disponible en https://github.com/antonioo-c/Regional-Prompting-FLUX.
English
Diffusion models have demonstrated excellent capabilities in text-to-image generation. Their semantic understanding (i.e., prompt following) ability has also been greatly improved with large language models (e.g., T5, Llama). However, existing models cannot perfectly handle long and complex text prompts, especially when the text prompts contain various objects with numerous attributes and interrelated spatial relationships. While many regional prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but there are still no implementations based on the recent Diffusion Transformer (DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and implement regional prompting for FLUX.1 based on attention manipulation, which enables DiT with fined-grained compositional text-to-image generation capability in a training-free manner. Code is available at https://github.com/antonioo-c/Regional-Prompting-FLUX.

Summary

AI-Generated Summary

PDF261November 13, 2024