Steuerung von Text-zu-Bild-Diffusion durch orthogonale Feinabstimmung

Zusammenfassung

Große Text-zu-Bild-Diffusionsmodelle verfügen über beeindruckende Fähigkeiten, fotorealistische Bilder aus Textbeschreibungen zu generieren. Die effektive Steuerung oder Kontrolle dieser leistungsstarken Modelle zur Durchführung verschiedener Downstream-Aufgaben wird zu einem wichtigen offenen Problem. Um diese Herausforderung zu bewältigen, führen wir eine prinzipielle Feinabstimmungsmethode ein – Orthogonal Fine-Tuning (OFT) – zur Anpassung von Text-zu-Bild-Diffusionsmodellen an Downstream-Aufgaben. Im Gegensatz zu bestehenden Methoden kann OFT nachweislich die hypersphärische Energie bewahren, die die paarweise Beziehung von Neuronen auf der Einheitshypersphäre charakterisiert. Wir stellen fest, dass diese Eigenschaft entscheidend für die Erhaltung der semantischen Generierungsfähigkeit von Text-zu-Bild-Diffusionsmodellen ist. Um die Stabilität der Feinabstimmung zu verbessern, schlagen wir weiterhin Constrained Orthogonal Fine-Tuning (COFT) vor, das eine zusätzliche Radiusbeschränkung für die Hypersphäre einführt. Insbesondere betrachten wir zwei wichtige Feinabstimmungsaufgaben für Text-zu-Bild-Modelle: subjektgetriebene Generierung, bei der das Ziel darin besteht, subjektspezifische Bilder anhand weniger Bilder eines Subjekts und einer Textbeschreibung zu generieren, und kontrollierbare Generierung, bei der das Ziel darin besteht, dem Modell die Verarbeitung zusätzlicher Steuersignale zu ermöglichen. Wir zeigen empirisch, dass unser OFT-Framework bestehende Methoden in Bezug auf Generierungsqualität und Konvergenzgeschwindigkeit übertrifft.

English

Large text-to-image diffusion models have impressive capabilities in generating photorealistic images from text prompts. How to effectively guide or control these powerful models to perform different downstream tasks becomes an important open problem. To tackle this challenge, we introduce a principled finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image diffusion models to downstream tasks. Unlike existing methods, OFT can provably preserve hyperspherical energy which characterizes the pairwise neuron relationship on the unit hypersphere. We find that this property is crucial for preserving the semantic generation ability of text-to-image diffusion models. To improve finetuning stability, we further propose Constrained Orthogonal Finetuning (COFT) which imposes an additional radius constraint to the hypersphere. Specifically, we consider two important finetuning text-to-image tasks: subject-driven generation where the goal is to generate subject-specific images given a few images of a subject and a text prompt, and controllable generation where the goal is to enable the model to take in additional control signals. We empirically show that our OFT framework outperforms existing methods in generation quality and convergence speed.

Steuerung von Text-zu-Bild-Diffusion durch orthogonale Feinabstimmung

Controlling Text-to-Image Diffusion by Orthogonal Finetuning

Zusammenfassung

Support