Steuerung von Text-zu-Bild-Diffusion durch orthogonale Feinabstimmung
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
June 12, 2023
Autoren: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI
Zusammenfassung
Große Text-zu-Bild-Diffusionsmodelle verfügen über beeindruckende Fähigkeiten, fotorealistische Bilder aus Textbeschreibungen zu generieren. Die effektive Steuerung oder Kontrolle dieser leistungsstarken Modelle zur Durchführung verschiedener Downstream-Aufgaben wird zu einem wichtigen offenen Problem. Um diese Herausforderung zu bewältigen, führen wir eine prinzipielle Feinabstimmungsmethode ein – Orthogonal Fine-Tuning (OFT) – zur Anpassung von Text-zu-Bild-Diffusionsmodellen an Downstream-Aufgaben. Im Gegensatz zu bestehenden Methoden kann OFT nachweislich die hypersphärische Energie bewahren, die die paarweise Beziehung von Neuronen auf der Einheitshypersphäre charakterisiert. Wir stellen fest, dass diese Eigenschaft entscheidend für die Erhaltung der semantischen Generierungsfähigkeit von Text-zu-Bild-Diffusionsmodellen ist. Um die Stabilität der Feinabstimmung zu verbessern, schlagen wir weiterhin Constrained Orthogonal Fine-Tuning (COFT) vor, das eine zusätzliche Radiusbeschränkung für die Hypersphäre einführt. Insbesondere betrachten wir zwei wichtige Feinabstimmungsaufgaben für Text-zu-Bild-Modelle: subjektgetriebene Generierung, bei der das Ziel darin besteht, subjektspezifische Bilder anhand weniger Bilder eines Subjekts und einer Textbeschreibung zu generieren, und kontrollierbare Generierung, bei der das Ziel darin besteht, dem Modell die Verarbeitung zusätzlicher Steuersignale zu ermöglichen. Wir zeigen empirisch, dass unser OFT-Framework bestehende Methoden in Bezug auf Generierungsqualität und Konvergenzgeschwindigkeit übertrifft.
English
Large text-to-image diffusion models have impressive capabilities in
generating photorealistic images from text prompts. How to effectively guide or
control these powerful models to perform different downstream tasks becomes an
important open problem. To tackle this challenge, we introduce a principled
finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image
diffusion models to downstream tasks. Unlike existing methods, OFT can provably
preserve hyperspherical energy which characterizes the pairwise neuron
relationship on the unit hypersphere. We find that this property is crucial for
preserving the semantic generation ability of text-to-image diffusion models.
To improve finetuning stability, we further propose Constrained Orthogonal
Finetuning (COFT) which imposes an additional radius constraint to the
hypersphere. Specifically, we consider two important finetuning text-to-image
tasks: subject-driven generation where the goal is to generate subject-specific
images given a few images of a subject and a text prompt, and controllable
generation where the goal is to enable the model to take in additional control
signals. We empirically show that our OFT framework outperforms existing
methods in generation quality and convergence speed.