ChatPaper.aiChatPaper

Control de la Difusión de Texto a Imagen mediante Ajuste Fino Ortogonal

Controlling Text-to-Image Diffusion by Orthogonal Finetuning

June 12, 2023
Autores: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI

Resumen

Los grandes modelos de difusión de texto a imagen tienen capacidades impresionantes para generar imágenes fotorrealistas a partir de indicaciones de texto. Cómo guiar o controlar de manera efectiva estos modelos potentes para realizar diferentes tareas posteriores se convierte en un problema abierto importante. Para abordar este desafío, introducimos un método de ajuste fino basado en principios: Ajuste Fino Ortogonal (OFT, por sus siglas en inglés), para adaptar modelos de difusión de texto a imagen a tareas posteriores. A diferencia de los métodos existentes, OFT puede preservar de manera demostrable la energía hiperesférica, que caracteriza la relación entre pares de neuronas en la hiperesfera unitaria. Descubrimos que esta propiedad es crucial para preservar la capacidad de generación semántica de los modelos de difusión de texto a imagen. Para mejorar la estabilidad del ajuste fino, proponemos además el Ajuste Fino Ortogonal Restringido (COFT), que impone una restricción adicional de radio a la hiperesfera. Específicamente, consideramos dos tareas importantes de ajuste fino de texto a imagen: la generación impulsada por sujetos, donde el objetivo es generar imágenes específicas de un sujeto dadas unas pocas imágenes del sujeto y una indicación de texto, y la generación controlable, donde el objetivo es permitir que el modelo reciba señales de control adicionales. Demostramos empíricamente que nuestro marco OFT supera a los métodos existentes en calidad de generación y velocidad de convergencia.
English
Large text-to-image diffusion models have impressive capabilities in generating photorealistic images from text prompts. How to effectively guide or control these powerful models to perform different downstream tasks becomes an important open problem. To tackle this challenge, we introduce a principled finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image diffusion models to downstream tasks. Unlike existing methods, OFT can provably preserve hyperspherical energy which characterizes the pairwise neuron relationship on the unit hypersphere. We find that this property is crucial for preserving the semantic generation ability of text-to-image diffusion models. To improve finetuning stability, we further propose Constrained Orthogonal Finetuning (COFT) which imposes an additional radius constraint to the hypersphere. Specifically, we consider two important finetuning text-to-image tasks: subject-driven generation where the goal is to generate subject-specific images given a few images of a subject and a text prompt, and controllable generation where the goal is to enable the model to take in additional control signals. We empirically show that our OFT framework outperforms existing methods in generation quality and convergence speed.
PDF201December 15, 2024