Controlando a Geração de Imagens a partir de Texto por meio de Ajuste Fino Ortogonal
Controlling Text-to-Image Diffusion by Orthogonal Finetuning
June 12, 2023
Autores: Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Schölkopf
cs.AI
Resumo
Modelos de difusão de texto para imagem em grande escala possuem capacidades impressionantes na geração de imagens foto-realistas a partir de prompts de texto. Como orientar ou controlar de forma eficaz esses modelos poderosos para realizar diferentes tarefas subsequentes torna-se um importante problema em aberto. Para enfrentar esse desafio, introduzimos um método de ajuste fino fundamentado -- Ajuste Fino Ortogonal (OFT, do inglês Orthogonal Finetuning), para adaptar modelos de difusão de texto para imagem a tarefas subsequentes. Diferente dos métodos existentes, o OFT pode comprovadamente preservar a energia hiperesférica, que caracteriza a relação entre pares de neurônios na hiperesfera unitária. Descobrimos que essa propriedade é crucial para preservar a capacidade de geração semântica dos modelos de difusão de texto para imagem. Para melhorar a estabilidade do ajuste fino, propomos ainda o Ajuste Fino Ortogonal Restrito (COFT, do inglês Constrained Orthogonal Finetuning), que impõe uma restrição adicional de raio à hiperesfera. Especificamente, consideramos duas importantes tarefas de ajuste fino de texto para imagem: geração orientada por sujeito, onde o objetivo é gerar imagens específicas de um sujeito dadas algumas imagens desse sujeito e um prompt de texto, e geração controlável, onde o objetivo é permitir que o modelo receba sinais de controle adicionais. Empiricamente, demonstramos que nossa estrutura OFT supera os métodos existentes em qualidade de geração e velocidade de convergência.
English
Large text-to-image diffusion models have impressive capabilities in
generating photorealistic images from text prompts. How to effectively guide or
control these powerful models to perform different downstream tasks becomes an
important open problem. To tackle this challenge, we introduce a principled
finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image
diffusion models to downstream tasks. Unlike existing methods, OFT can provably
preserve hyperspherical energy which characterizes the pairwise neuron
relationship on the unit hypersphere. We find that this property is crucial for
preserving the semantic generation ability of text-to-image diffusion models.
To improve finetuning stability, we further propose Constrained Orthogonal
Finetuning (COFT) which imposes an additional radius constraint to the
hypersphere. Specifically, we consider two important finetuning text-to-image
tasks: subject-driven generation where the goal is to generate subject-specific
images given a few images of a subject and a text prompt, and controllable
generation where the goal is to enable the model to take in additional control
signals. We empirically show that our OFT framework outperforms existing
methods in generation quality and convergence speed.