FreeControl: Бесплатное пространственное управление любой моделью диффузии текста в изображение с любым условием
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
December 12, 2023
Авторы: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
cs.AI
Аннотация
Современные подходы, такие как ControlNet, предоставляют пользователям детализированный пространственный контроль над моделями диффузии для генерации изображений из текста (T2I). Однако для каждого типа пространственных условий, архитектуры модели и контрольной точки необходимо обучать вспомогательные модули, что противоречит разнообразным намерениям и предпочтениям, которые дизайнер хотел бы передать ИИ-моделям в процессе создания контента. В данной работе мы представляем FreeControl — подход для управляемой генерации T2I, не требующий обучения и поддерживающий одновременно несколько условий, архитектур и контрольных точек. FreeControl разрабатывает структурное руководство для обеспечения выравнивания структуры с изображением-ориентиром и визуальное руководство для обеспечения согласованности внешнего вида между изображениями, сгенерированными с использованием одного и того же начального значения. Многочисленные качественные и количественные эксперименты демонстрируют превосходную производительность FreeControl на различных предобученных T2I-моделях. В частности, FreeControl обеспечивает удобный контроль без необходимости обучения для множества различных архитектур и контрольных точек, позволяет работать со сложными входными условиями, на которых большинство существующих методов без обучения терпят неудачу, и достигает конкурентоспособного качества синтеза по сравнению с подходами, требующими обучения.
English
Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.