FreeControl : Contrôle spatial sans entraînement de tout modèle de diffusion texte-image avec n'importe quelle condition
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
December 12, 2023
Auteurs: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
cs.AI
Résumé
Les approches récentes telles que ControlNet offrent aux utilisateurs un contrôle spatial fin sur les modèles de diffusion texte-à-image (T2I). Cependant, des modules auxiliaires doivent être entraînés pour chaque type de condition spatiale, architecture de modèle et point de contrôle, ce qui les rend incompatibles avec la diversité des intentions et préférences qu'un concepteur humain souhaiterait exprimer aux modèles d'IA lors du processus de création de contenu. Dans ce travail, nous présentons FreeControl, une approche sans entraînement pour la génération contrôlée T2I qui prend en charge simultanément plusieurs conditions, architectures et points de contrôle. FreeControl conçoit un guidage de structure pour faciliter l'alignement structurel avec une image de référence, et un guidage d'apparence pour permettre le partage d'apparence entre les images générées à partir de la même graine. Des expériences qualitatives et quantitatives approfondies démontrent la performance supérieure de FreeControl sur une variété de modèles T2I pré-entraînés. En particulier, FreeControl facilite un contrôle pratique sans entraînement sur de nombreuses architectures et points de contrôle différents, permet de gérer des conditions d'entrée difficiles sur lesquelles la plupart des méthodes existantes sans entraînement échouent, et atteint une qualité de synthèse compétitive avec les approches basées sur l'entraînement.
English
Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.