Contrôle de la diffusion texte-image par affinage orthogonal
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
June 12, 2023
Auteurs: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI
Résumé
Les grands modèles de diffusion texte-image possèdent des capacités impressionnantes pour générer des images photoréalistes à partir de descriptions textuelles. La question de savoir comment guider ou contrôler efficacement ces modèles puissants pour accomplir différentes tâches en aval devient un problème ouvert important. Pour relever ce défi, nous introduisons une méthode de réglage fin basée sur des principes -- le Réglage Fin Orthogonal (Orthogonal Finetuning, OFT), pour adapter les modèles de diffusion texte-image à des tâches en aval. Contrairement aux méthodes existantes, OFT peut préserver de manière prouvée l'énergie hypersphérique, qui caractérise la relation par paires des neurones sur l'hypersphère unitaire. Nous constatons que cette propriété est cruciale pour préserver la capacité de génération sémantique des modèles de diffusion texte-image. Pour améliorer la stabilité du réglage fin, nous proposons en outre le Réglage Fin Orthogonal Contraint (Constrained Orthogonal Finetuning, COFT), qui impose une contrainte de rayon supplémentaire à l'hypersphère. Plus précisément, nous considérons deux tâches importantes de réglage fin texte-image : la génération pilotée par un sujet, où l'objectif est de générer des images spécifiques à un sujet à partir de quelques images de ce sujet et d'une description textuelle, et la génération contrôlée, où l'objectif est de permettre au modèle de prendre en compte des signaux de contrôle supplémentaires. Nous démontrons empiriquement que notre cadre OFT surpasse les méthodes existantes en termes de qualité de génération et de vitesse de convergence.
English
Large text-to-image diffusion models have impressive capabilities in
generating photorealistic images from text prompts. How to effectively guide or
control these powerful models to perform different downstream tasks becomes an
important open problem. To tackle this challenge, we introduce a principled
finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image
diffusion models to downstream tasks. Unlike existing methods, OFT can provably
preserve hyperspherical energy which characterizes the pairwise neuron
relationship on the unit hypersphere. We find that this property is crucial for
preserving the semantic generation ability of text-to-image diffusion models.
To improve finetuning stability, we further propose Constrained Orthogonal
Finetuning (COFT) which imposes an additional radius constraint to the
hypersphere. Specifically, we consider two important finetuning text-to-image
tasks: subject-driven generation where the goal is to generate subject-specific
images given a few images of a subject and a text prompt, and controllable
generation where the goal is to enable the model to take in additional control
signals. We empirically show that our OFT framework outperforms existing
methods in generation quality and convergence speed.