CCM: Aggiunta di Controlli Condizionali ai Modelli di Coerenza da Testo a Immagine
CCM: Adding Conditional Controls to Text-to-Image Consistency Models
December 12, 2023
Autori: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
cs.AI
Abstract
I Modelli di Consistenza (CMs) hanno dimostrato un potenziale promettente nella creazione di contenuti visivi in modo efficiente e di alta qualità. Tuttavia, il modo per aggiungere nuovi controlli condizionali ai CMs pre-addestrati non è stato ancora esplorato. In questo rapporto tecnico, consideriamo strategie alternative per aggiungere controlli condizionali simili a ControlNet ai CMs e presentiamo tre risultati significativi. 1) ControlNet addestrato per modelli di diffusione (DMs) può essere applicato direttamente ai CMs per controlli semantici di alto livello, ma incontra difficoltà con i dettagli di basso livello e il controllo del realismo. 2) I CMs rappresentano una classe indipendente di modelli generativi, sulla base della quale ControlNet può essere addestrato da zero utilizzando il Consistency Training proposto da Song et al. 3) Un adattatore leggero può essere ottimizzato congiuntamente sotto molteplici condizioni attraverso il Consistency Training, consentendo un trasferimento rapido di ControlNet basato su DMs ai CMs. Studiamo queste tre soluzioni attraverso vari controlli condizionali, tra cui bordi, profondità, pose umane, immagini a bassa risoluzione e immagini mascherate con modelli di consistenza latente da testo a immagine.
English
Consistency Models (CMs) have showed a promise in creating visual content
efficiently and with high quality. However, the way to add new conditional
controls to the pretrained CMs has not been explored. In this technical report,
we consider alternative strategies for adding ControlNet-like conditional
control to CMs and present three significant findings. 1) ControlNet trained
for diffusion models (DMs) can be directly applied to CMs for high-level
semantic controls but struggles with low-level detail and realism control. 2)
CMs serve as an independent class of generative models, based on which
ControlNet can be trained from scratch using Consistency Training proposed by
Song et al. 3) A lightweight adapter can be jointly optimized under multiple
conditions through Consistency Training, allowing for the swift transfer of
DMs-based ControlNet to CMs. We study these three solutions across various
conditional controls, including edge, depth, human pose, low-resolution image
and masked image with text-to-image latent consistency models.