FreeControl: Controllo Spaziale Senza Addestramento per Qualsiasi Modello di Diffusione da Testo a Immagine con Qualsiasi Condizione
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
December 12, 2023
Autori: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
cs.AI
Abstract
Approcci recenti come ControlNet offrono agli utenti un controllo spaziale fine sui modelli di diffusione testo-immagine (T2I). Tuttavia, è necessario addestrare moduli ausiliari per ogni tipo di condizione spaziale, architettura del modello e checkpoint, rendendoli in contrasto con le diverse intenzioni e preferenze che un progettista umano vorrebbe trasmettere ai modelli di intelligenza artificiale durante il processo di creazione dei contenuti. In questo lavoro, presentiamo FreeControl, un approccio senza addestramento per la generazione controllata di immagini T2I che supporta simultaneamente più condizioni, architetture e checkpoint. FreeControl progetta una guida strutturale per facilitare l'allineamento strutturale con un'immagine di riferimento e una guida estetica per consentire la condivisione dell'aspetto tra immagini generate utilizzando lo stesso seme. Esperimenti qualitativi e quantitativi estesi dimostrano la performance superiore di FreeControl su una varietà di modelli T2I pre-addestrati. In particolare, FreeControl facilita un comodo controllo senza addestramento su molte architetture e checkpoint diversi, consente condizioni di input complesse su cui la maggior parte dei metodi esistenti senza addestramento fallisce e raggiunge una qualità di sintesi competitiva con approcci basati su addestramento.
English
Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.