FreeControl: Trainingsvrije ruimtelijke controle van elk tekst-naar-beeld diffusiemodel met elke voorwaarde
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
December 12, 2023
Auteurs: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
cs.AI
Samenvatting
Recente benaderingen zoals ControlNet bieden gebruikers fijnmazige ruimtelijke controle over tekst-naar-beeld (T2I) diffusiemodellen. Echter moeten aanvullende modules worden getraind voor elk type ruimtelijke conditie, modelarchitectuur en checkpoint, wat ze in conflict brengt met de diverse intenties en voorkeuren die een menselijke ontwerper aan de AI-modellen wil overbrengen tijdens het contentcreatieproces. In dit werk presenteren we FreeControl, een trainingsvrije benadering voor controleerbare T2I-generatie die meerdere condities, architecturen en checkpoints tegelijk ondersteunt. FreeControl ontwerpt structuurbegeleiding om de structuurafstemming met een begeleidingsbeeld te vergemakkelijken, en uiterlijkbegeleiding om het delen van uiterlijk tussen beelden die met hetzelfde seed zijn gegenereerd mogelijk te maken. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen de superieure prestaties van FreeControl aan over een verscheidenheid aan vooraf getrainde T2I-modellen. In het bijzonder vergemakkelijkt FreeControl handige trainingsvrije controle over veel verschillende architecturen en checkpoints, staat het uitdagende invoercondities toe waarop de meeste bestaande trainingsvrije methoden falen, en bereikt het een competitieve synthesekwaliteit met trainingsgebaseerde benaderingen.
English
Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.