FreeControl: Trainingsfreie räumliche Steuerung beliebiger Text-zu-Bild-Diffusionsmodelle mit beliebigen Bedingungen
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
December 12, 2023
Autoren: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
cs.AI
Zusammenfassung
Aktuelle Ansätze wie ControlNet bieten Nutzern eine fein abgestimmte räumliche Kontrolle über Text-zu-Bild (T2I) Diffusionsmodelle. Allerdings müssen für jede Art von räumlicher Bedingung, Modellarchitektur und Checkpoint zusätzliche Module trainiert werden, was sie in Konflikt mit den vielfältigen Absichten und Präferenzen bringt, die ein menschlicher Designer den KI-Modellen während des Inhaltserstellungsprozesses vermitteln möchte. In dieser Arbeit präsentieren wir FreeControl, einen trainingsfreien Ansatz für kontrollierbare T2I-Generierung, der mehrere Bedingungen, Architekturen und Checkpoints gleichzeitig unterstützt. FreeControl entwirft Strukturführung, um die Strukturausrichtung mit einem Führungsbild zu erleichtern, und Erscheinungsführung, um die Erscheinungsteilung zwischen Bildern, die mit demselben Seed erzeugt wurden, zu ermöglichen. Umfangreiche qualitative und quantitative Experimente demonstrieren die überlegene Leistung von FreeControl über eine Vielzahl von vortrainierten T2I-Modellen hinweg. Insbesondere ermöglicht FreeControl eine bequeme trainingsfreie Kontrolle über viele verschiedene Architekturen und Checkpoints, erlaubt die Verwendung von anspruchsvollen Eingabebedingungen, bei denen die meisten bestehenden trainingsfreien Methoden scheitern, und erreicht eine wettbewerbsfähige Synthesequalität im Vergleich zu trainingsbasierten Ansätzen.
English
Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.