CCM: Adicionando Controles Condicionais aos Modelos de Consistência Texto-para-Imagem
CCM: Adding Conditional Controls to Text-to-Image Consistency Models
December 12, 2023
Autores: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
cs.AI
Resumo
Os Modelos de Consistência (CMs) têm demonstrado potencial na criação de conteúdo visual de forma eficiente e com alta qualidade. No entanto, a maneira de adicionar novos controles condicionais aos CMs pré-treinados ainda não foi explorada. Neste relatório técnico, consideramos estratégias alternativas para adicionar controle condicional semelhante ao ControlNet aos CMs e apresentamos três descobertas significativas. 1) O ControlNet treinado para modelos de difusão (DMs) pode ser aplicado diretamente aos CMs para controles semânticos de alto nível, mas enfrenta dificuldades com detalhes de baixo nível e controle de realismo. 2) Os CMs funcionam como uma classe independente de modelos generativos, com base na qual o ControlNet pode ser treinado do zero usando o Treinamento de Consistência proposto por Song et al. 3) Um adaptador leve pode ser otimizado conjuntamente sob múltiplas condições por meio do Treinamento de Consistência, permitindo a transferência rápida do ControlNet baseado em DMs para os CMs. Estudamos essas três soluções em diversos controles condicionais, incluindo bordas, profundidade, pose humana, imagem de baixa resolução e imagem mascarada com modelos de consistência latente de texto para imagem.
English
Consistency Models (CMs) have showed a promise in creating visual content
efficiently and with high quality. However, the way to add new conditional
controls to the pretrained CMs has not been explored. In this technical report,
we consider alternative strategies for adding ControlNet-like conditional
control to CMs and present three significant findings. 1) ControlNet trained
for diffusion models (DMs) can be directly applied to CMs for high-level
semantic controls but struggles with low-level detail and realism control. 2)
CMs serve as an independent class of generative models, based on which
ControlNet can be trained from scratch using Consistency Training proposed by
Song et al. 3) A lightweight adapter can be jointly optimized under multiple
conditions through Consistency Training, allowing for the swift transfer of
DMs-based ControlNet to CMs. We study these three solutions across various
conditional controls, including edge, depth, human pose, low-resolution image
and masked image with text-to-image latent consistency models.