Controllo della diffusione testo-immagine mediante fine-tuning ortogonale

Abstract

I grandi modelli di diffusione testo-immagine dimostrano capacità impressionanti nel generare immagini fotorealistiche a partire da prompt testuali. Come guidare o controllare efficacemente questi potenti modelli per eseguire diverse attività downstream diventa un importante problema aperto. Per affrontare questa sfida, introduciamo un metodo di fine-tuning strutturato -- Orthogonal Finetuning (OFT), per adattare i modelli di diffusione testo-immagine a compiti downstream. A differenza dei metodi esistenti, OFT può preservare in modo dimostrabile l'energia ipersferica, che caratterizza la relazione reciproca dei neuroni sulla sfera unitaria ipersferica. Troviamo che questa proprietà è cruciale per preservare la capacità di generazione semantica dei modelli di diffusione testo-immagine. Per migliorare la stabilità del fine-tuning, proponiamo ulteriormente il Constrained Orthogonal Finetuning (COFT), che impone un vincolo aggiuntivo sul raggio della sfera ipersferica. Nello specifico, consideriamo due importanti compiti di fine-tuning testo-immagine: la generazione guidata dal soggetto, in cui l'obiettivo è generare immagini specifiche di un soggetto date poche immagini del soggetto e un prompt testuale, e la generazione controllata, in cui l'obiettivo è consentire al modello di ricevere segnali di controllo aggiuntivi. Dimostriamo empiricamente che il nostro framework OFT supera i metodi esistenti in termini di qualità della generazione e velocità di convergenza.

English

Large text-to-image diffusion models have impressive capabilities in generating photorealistic images from text prompts. How to effectively guide or control these powerful models to perform different downstream tasks becomes an important open problem. To tackle this challenge, we introduce a principled finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image diffusion models to downstream tasks. Unlike existing methods, OFT can provably preserve hyperspherical energy which characterizes the pairwise neuron relationship on the unit hypersphere. We find that this property is crucial for preserving the semantic generation ability of text-to-image diffusion models. To improve finetuning stability, we further propose Constrained Orthogonal Finetuning (COFT) which imposes an additional radius constraint to the hypersphere. Specifically, we consider two important finetuning text-to-image tasks: subject-driven generation where the goal is to generate subject-specific images given a few images of a subject and a text prompt, and controllable generation where the goal is to enable the model to take in additional control signals. We empirically show that our OFT framework outperforms existing methods in generation quality and convergence speed.

Controllo della diffusione testo-immagine mediante fine-tuning ortogonale

Controlling Text-to-Image Diffusion by Orthogonal Finetuning

Abstract

Support