CCM: Incorporación de Controles Condicionales a Modelos de Consistencia de Texto a Imagen
CCM: Adding Conditional Controls to Text-to-Image Consistency Models
December 12, 2023
Autores: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
cs.AI
Resumen
Los Modelos de Consistencia (CMs, por sus siglas en inglés) han demostrado ser prometedores en la creación de contenido visual de manera eficiente y con alta calidad. Sin embargo, la forma de agregar nuevos controles condicionales a los CMs preentrenados no ha sido explorada. En este informe técnico, consideramos estrategias alternativas para añadir controles condicionales similares a ControlNet en los CMs y presentamos tres hallazgos significativos. 1) ControlNet, entrenado para modelos de difusión (DMs), puede aplicarse directamente a los CMs para controles semánticos de alto nivel, pero presenta dificultades con detalles de bajo nivel y control de realismo. 2) Los CMs representan una clase independiente de modelos generativos, sobre la cual se puede entrenar ControlNet desde cero utilizando el Entrenamiento de Consistencia propuesto por Song et al. 3) Un adaptador ligero puede optimizarse conjuntamente bajo múltiples condiciones mediante el Entrenamiento de Consistencia, permitiendo la transferencia rápida de ControlNet basado en DMs a los CMs. Estudiamos estas tres soluciones en diversos controles condicionales, incluyendo bordes, profundidad, postura humana, imágenes de baja resolución e imágenes enmascaradas con modelos de consistencia latente de texto a imagen.
English
Consistency Models (CMs) have showed a promise in creating visual content
efficiently and with high quality. However, the way to add new conditional
controls to the pretrained CMs has not been explored. In this technical report,
we consider alternative strategies for adding ControlNet-like conditional
control to CMs and present three significant findings. 1) ControlNet trained
for diffusion models (DMs) can be directly applied to CMs for high-level
semantic controls but struggles with low-level detail and realism control. 2)
CMs serve as an independent class of generative models, based on which
ControlNet can be trained from scratch using Consistency Training proposed by
Song et al. 3) A lightweight adapter can be jointly optimized under multiple
conditions through Consistency Training, allowing for the swift transfer of
DMs-based ControlNet to CMs. We study these three solutions across various
conditional controls, including edge, depth, human pose, low-resolution image
and masked image with text-to-image latent consistency models.