FreeControl: Controle Espacial Sem Treinamento de Qualquer Modelo de Difusão Texto-para-Imagem com Qualquer Condição
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
December 12, 2023
Autores: Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou
cs.AI
Resumo
Abordagens recentes, como o ControlNet, oferecem aos usuários controle espacial refinado sobre modelos de difusão de texto para imagem (T2I). No entanto, módulos auxiliares precisam ser treinados para cada tipo de condição espacial, arquitetura de modelo e checkpoint, o que os coloca em desacordo com as diversas intenções e preferências que um designer humano gostaria de transmitir aos modelos de IA durante o processo de criação de conteúdo. Neste trabalho, apresentamos o FreeControl, uma abordagem sem treinamento para geração controlada de T2I que suporta múltiplas condições, arquiteturas e checkpoints simultaneamente. O FreeControl projeta orientação de estrutura para facilitar o alinhamento estrutural com uma imagem de referência e orientação de aparência para permitir o compartilhamento de aparência entre imagens geradas usando a mesma semente. Experimentos qualitativos e quantitativos extensivos demonstram o desempenho superior do FreeControl em uma variedade de modelos T2I pré-treinados. Em particular, o FreeControl facilita o controle conveniente sem treinamento sobre muitas arquiteturas e checkpoints diferentes, permite condições de entrada desafiadoras nas quais a maioria dos métodos existentes sem treinamento falha e alcança qualidade de síntese competitiva com abordagens baseadas em treinamento.
English
Recent approaches such as ControlNet offer users fine-grained spatial control
over text-to-image (T2I) diffusion models. However, auxiliary modules have to
be trained for each type of spatial condition, model architecture, and
checkpoint, putting them at odds with the diverse intents and preferences a
human designer would like to convey to the AI models during the content
creation process. In this work, we present FreeControl, a training-free
approach for controllable T2I generation that supports multiple conditions,
architectures, and checkpoints simultaneously. FreeControl designs structure
guidance to facilitate the structure alignment with a guidance image, and
appearance guidance to enable the appearance sharing between images generated
using the same seed. Extensive qualitative and quantitative experiments
demonstrate the superior performance of FreeControl across a variety of
pre-trained T2I models. In particular, FreeControl facilitates convenient
training-free control over many different architectures and checkpoints, allows
the challenging input conditions on which most of the existing training-free
methods fail, and achieves competitive synthesis quality with training-based
approaches.