FreeControl: Control espacial sin entrenamiento para cualquier modelo de difusión de texto a imagen con cualquier condición
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
December 12, 2023
Autores: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
cs.AI
Resumen
Enfoques recientes como ControlNet ofrecen a los usuarios un control espacial detallado sobre los modelos de difusión de texto a imagen (T2I). Sin embargo, es necesario entrenar módulos auxiliares para cada tipo de condición espacial, arquitectura de modelo y punto de control, lo que los pone en desventaja frente a las diversas intenciones y preferencias que un diseñador humano desearía transmitir a los modelos de IA durante el proceso de creación de contenido. En este trabajo, presentamos FreeControl, un enfoque sin entrenamiento para la generación controlada de T2I que admite múltiples condiciones, arquitecturas y puntos de control simultáneamente. FreeControl diseña una guía de estructura para facilitar la alineación estructural con una imagen de referencia, y una guía de apariencia para permitir el intercambio de apariencia entre imágenes generadas utilizando la misma semilla. Experimentos cualitativos y cuantitativos exhaustivos demuestran el rendimiento superior de FreeControl en una variedad de modelos T2I preentrenados. En particular, FreeControl facilita un control conveniente sin entrenamiento sobre muchas arquitecturas y puntos de control diferentes, permite condiciones de entrada desafiantes en las que la mayoría de los métodos sin entrenamiento existentes fallan, y logra una calidad de síntesis competitiva con enfoques basados en entrenamiento.
English
Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.