Het beheersen van tekst-naar-beeld diffusie door orthogonale fine-tuning
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
June 12, 2023
Auteurs: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI
Samenvatting
Grote tekst-naar-beeld diffusiemodellen beschikken over indrukwekkende mogelijkheden om fotorealistische afbeeldingen te genereren op basis van tekstprompts. Het effectief begeleiden of controleren van deze krachtige modellen om verschillende downstream taken uit te voeren, wordt een belangrijk open probleem. Om deze uitdaging aan te pakken, introduceren we een principiële finetuningmethode -- Orthogonale Finetuning (OFT), voor het aanpassen van tekst-naar-beeld diffusiemodellen aan downstream taken. In tegenstelling tot bestaande methoden kan OFT aantoonbaar hypersferische energie behouden, wat de paarsgewijze neuronrelatie op de eenheidshypersfeer karakteriseert. We ontdekken dat deze eigenschap cruciaal is voor het behouden van de semantische generatiecapaciteit van tekst-naar-beeld diffusiemodellen. Om de stabiliteit van het finetunen te verbeteren, stellen we verder Constrained Orthogonal Finetuning (COFT) voor, dat een extra straalbeperking oplegt aan de hypersfeer. Specifiek beschouwen we twee belangrijke finetuning tekst-naar-beeld taken: subjectgedreven generatie, waarbij het doel is om subjectspecifieke afbeeldingen te genereren op basis van een paar afbeeldingen van een subject en een tekstprompt, en controleerbare generatie, waarbij het doel is om het model in staat te stellen aanvullende controlesignalen te verwerken. We tonen empirisch aan dat ons OFT-raamwerk bestaande methoden overtreft in generatiekwaliteit en convergentiesnelheid.
English
Large text-to-image diffusion models have impressive capabilities in
generating photorealistic images from text prompts. How to effectively guide or
control these powerful models to perform different downstream tasks becomes an
important open problem. To tackle this challenge, we introduce a principled
finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image
diffusion models to downstream tasks. Unlike existing methods, OFT can provably
preserve hyperspherical energy which characterizes the pairwise neuron
relationship on the unit hypersphere. We find that this property is crucial for
preserving the semantic generation ability of text-to-image diffusion models.
To improve finetuning stability, we further propose Constrained Orthogonal
Finetuning (COFT) which imposes an additional radius constraint to the
hypersphere. Specifically, we consider two important finetuning text-to-image
tasks: subject-driven generation where the goal is to generate subject-specific
images given a few images of a subject and a text prompt, and controllable
generation where the goal is to enable the model to take in additional control
signals. We empirically show that our OFT framework outperforms existing
methods in generation quality and convergence speed.