Обучение-бесплатное региональное поощрение для трансформеров диффузии
Training-free Regional Prompting for Diffusion Transformers
November 4, 2024
Авторы: Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang
cs.AI
Аннотация
Модели диффузии продемонстрировали отличные возможности в генерации текста в изображения. Их семантическое понимание (т.е. последующий запрос) также значительно улучшилось благодаря крупным языковым моделям (например, T5, Llama). Однако существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда текстовые запросы содержат различные объекты с многочисленными атрибутами и взаимосвязанными пространственными отношениями. Хотя было предложено много региональных методов запросов для моделей на основе UNet (SD1.5, SDXL), пока не было реализаций на основе недавней архитектуры Диффузионного Трансформера (DiT), таких как SD3 и FLUX. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1 на основе манипуляции вниманием, что позволяет DiT обладать способностью к генерации изображений из текста с тонкой детализацией в обучении-без-тренировки. Код доступен по ссылке https://github.com/antonioo-c/Regional-Prompting-FLUX.
English
Diffusion models have demonstrated excellent capabilities in text-to-image
generation. Their semantic understanding (i.e., prompt following) ability has
also been greatly improved with large language models (e.g., T5, Llama).
However, existing models cannot perfectly handle long and complex text prompts,
especially when the text prompts contain various objects with numerous
attributes and interrelated spatial relationships. While many regional
prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but
there are still no implementations based on the recent Diffusion Transformer
(DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and
implement regional prompting for FLUX.1 based on attention manipulation, which
enables DiT with fined-grained compositional text-to-image generation
capability in a training-free manner. Code is available at
https://github.com/antonioo-c/Regional-Prompting-FLUX.Summary
AI-Generated Summary