Control de la Difusión de Texto a Imagen mediante Ajuste Fino Ortogonal
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
June 12, 2023
Autores: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI
Resumen
Los grandes modelos de difusión de texto a imagen tienen capacidades impresionantes para generar imágenes fotorrealistas a partir de indicaciones de texto. Cómo guiar o controlar de manera efectiva estos modelos potentes para realizar diferentes tareas posteriores se convierte en un problema abierto importante. Para abordar este desafío, introducimos un método de ajuste fino basado en principios: Ajuste Fino Ortogonal (OFT, por sus siglas en inglés), para adaptar modelos de difusión de texto a imagen a tareas posteriores. A diferencia de los métodos existentes, OFT puede preservar de manera demostrable la energía hiperesférica, que caracteriza la relación entre pares de neuronas en la hiperesfera unitaria. Descubrimos que esta propiedad es crucial para preservar la capacidad de generación semántica de los modelos de difusión de texto a imagen. Para mejorar la estabilidad del ajuste fino, proponemos además el Ajuste Fino Ortogonal Restringido (COFT), que impone una restricción adicional de radio a la hiperesfera. Específicamente, consideramos dos tareas importantes de ajuste fino de texto a imagen: la generación impulsada por sujetos, donde el objetivo es generar imágenes específicas de un sujeto dadas unas pocas imágenes del sujeto y una indicación de texto, y la generación controlable, donde el objetivo es permitir que el modelo reciba señales de control adicionales. Demostramos empíricamente que nuestro marco OFT supera a los métodos existentes en calidad de generación y velocidad de convergencia.
English
Large text-to-image diffusion models have impressive capabilities in
generating photorealistic images from text prompts. How to effectively guide or
control these powerful models to perform different downstream tasks becomes an
important open problem. To tackle this challenge, we introduce a principled
finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image
diffusion models to downstream tasks. Unlike existing methods, OFT can provably
preserve hyperspherical energy which characterizes the pairwise neuron
relationship on the unit hypersphere. We find that this property is crucial for
preserving the semantic generation ability of text-to-image diffusion models.
To improve finetuning stability, we further propose Constrained Orthogonal
Finetuning (COFT) which imposes an additional radius constraint to the
hypersphere. Specifically, we consider two important finetuning text-to-image
tasks: subject-driven generation where the goal is to generate subject-specific
images given a few images of a subject and a text prompt, and controllable
generation where the goal is to enable the model to take in additional control
signals. We empirically show that our OFT framework outperforms existing
methods in generation quality and convergence speed.