Training-freies regionales Anstoßen für Diffusion-Transformer
Training-free Regional Prompting for Diffusion Transformers
November 4, 2024
Autoren: Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang
cs.AI
Zusammenfassung
Diffusionsmodelle haben ausgezeichnete Fähigkeiten in der Text-zu-Bild-Erzeugung gezeigt. Ihre semantische Verständnisfähigkeit (d.h. Anweisungsnachfolge) wurde auch mit großen Sprachmodellen (z.B. T5, Llama) erheblich verbessert. Allerdings können bestehende Modelle lange und komplexe Textanweisungen, insbesondere wenn die Textanweisungen verschiedene Objekte mit zahlreichen Attributen und miteinander verbundenen räumlichen Beziehungen enthalten, nicht perfekt verarbeiten. Obwohl viele regionale Anweisungsmethoden für UNet-basierte Modelle vorgeschlagen wurden (SD1.5, SDXL), gibt es immer noch keine Implementierungen basierend auf der neueren Diffusions-Transformator (DiT) Architektur, wie SD3 und FLUX. In diesem Bericht schlagen wir regionale Anweisungen für FLUX.1 basierend auf der Aufmerksamkeitsmanipulation vor und setzen sie um, was es DiT ermöglicht, feinkörnige, zusammengesetzte Text-zu-Bild-Erzeugungsfähigkeiten auf eine trainingsfreie Weise zu haben. Der Code ist verfügbar unter https://github.com/antonioo-c/Regional-Prompting-FLUX.
English
Diffusion models have demonstrated excellent capabilities in text-to-image
generation. Their semantic understanding (i.e., prompt following) ability has
also been greatly improved with large language models (e.g., T5, Llama).
However, existing models cannot perfectly handle long and complex text prompts,
especially when the text prompts contain various objects with numerous
attributes and interrelated spatial relationships. While many regional
prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but
there are still no implementations based on the recent Diffusion Transformer
(DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and
implement regional prompting for FLUX.1 based on attention manipulation, which
enables DiT with fined-grained compositional text-to-image generation
capability in a training-free manner. Code is available at
https://github.com/antonioo-c/Regional-Prompting-FLUX.Summary
AI-Generated Summary