CCM : Intégration de contrôles conditionnels aux modèles de cohérence texte-image
CCM: Adding Conditional Controls to Text-to-Image Consistency Models
December 12, 2023
Auteurs: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
cs.AI
Résumé
Les modèles de cohérence (Consistency Models, CMs) ont démontré leur potentiel pour créer du contenu visuel de manière efficace et de haute qualité. Cependant, la manière d'ajouter de nouveaux contrôles conditionnels aux CMs pré-entraînés n'a pas encore été explorée. Dans ce rapport technique, nous examinons des stratégies alternatives pour intégrer un contrôle conditionnel de type ControlNet aux CMs et présentons trois résultats significatifs. 1) Le ControlNet entraîné pour les modèles de diffusion (DMs) peut être directement appliqué aux CMs pour des contrôles sémantiques de haut niveau, mais rencontre des difficultés avec les détails de bas niveau et le contrôle du réalisme. 2) Les CMs constituent une classe indépendante de modèles génératifs, sur laquelle le ControlNet peut être entraîné à partir de zéro en utilisant l'entraînement de cohérence proposé par Song et al. 3) Un adaptateur léger peut être optimisé conjointement sous plusieurs conditions grâce à l'entraînement de cohérence, permettant un transfert rapide du ControlNet basé sur les DMs vers les CMs. Nous étudions ces trois solutions pour divers contrôles conditionnels, notamment les contours, la profondeur, la pose humaine, les images basse résolution et les images masquées, en utilisant des modèles de cohérence latente pour la génération d'images à partir de texte.
English
Consistency Models (CMs) have showed a promise in creating visual content
efficiently and with high quality. However, the way to add new conditional
controls to the pretrained CMs has not been explored. In this technical report,
we consider alternative strategies for adding ControlNet-like conditional
control to CMs and present three significant findings. 1) ControlNet trained
for diffusion models (DMs) can be directly applied to CMs for high-level
semantic controls but struggles with low-level detail and realism control. 2)
CMs serve as an independent class of generative models, based on which
ControlNet can be trained from scratch using Consistency Training proposed by
Song et al. 3) A lightweight adapter can be jointly optimized under multiple
conditions through Consistency Training, allowing for the swift transfer of
DMs-based ControlNet to CMs. We study these three solutions across various
conditional controls, including edge, depth, human pose, low-resolution image
and masked image with text-to-image latent consistency models.