CCM: Hinzufügen bedingter Steuerungen zu Konsistenzmodellen für Text-zu-Bild-Generierung
CCM: Adding Conditional Controls to Text-to-Image Consistency Models
December 12, 2023
Autoren: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
cs.AI
Zusammenfassung
Consistency Models (CMs) haben sich als vielversprechend erwiesen, um visuelle Inhalte effizient und in hoher Qualität zu erzeugen. Allerdings wurde die Möglichkeit, neue bedingte Steuerungen zu vortrainierten CMs hinzuzufügen, bisher nicht untersucht. In diesem technischen Bericht betrachten wir alternative Strategien zur Hinzufügung von ControlNet-ähnlicher bedingter Steuerung zu CMs und präsentieren drei bedeutende Erkenntnisse. 1) ControlNet, das für Diffusionsmodelle (DMs) trainiert wurde, kann direkt auf CMs angewendet werden, um semantische Steuerungen auf hoher Ebene zu ermöglichen, hat jedoch Schwierigkeiten mit der Steuerung von Details und Realismus auf niedriger Ebene. 2) CMs bilden eine eigenständige Klasse von generativen Modellen, auf deren Basis ControlNet von Grund auf mithilfe des von Song et al. vorgeschlagenen Consistency Trainings trainiert werden kann. 3) Ein leichtgewichtiger Adapter kann unter mehreren Bedingungen gemeinsam durch Consistency Training optimiert werden, was eine schnelle Übertragung von DMs-basiertem ControlNet auf CMs ermöglicht. Wir untersuchen diese drei Lösungsansätze für verschiedene bedingte Steuerungen, darunter Kanten, Tiefe, menschliche Pose, niedrigauflösende Bilder und maskierte Bilder mit text-zu-bild latenten Konsistenzmodellen.
English
Consistency Models (CMs) have showed a promise in creating visual content
efficiently and with high quality. However, the way to add new conditional
controls to the pretrained CMs has not been explored. In this technical report,
we consider alternative strategies for adding ControlNet-like conditional
control to CMs and present three significant findings. 1) ControlNet trained
for diffusion models (DMs) can be directly applied to CMs for high-level
semantic controls but struggles with low-level detail and realism control. 2)
CMs serve as an independent class of generative models, based on which
ControlNet can be trained from scratch using Consistency Training proposed by
Song et al. 3) A lightweight adapter can be jointly optimized under multiple
conditions through Consistency Training, allowing for the swift transfer of
DMs-based ControlNet to CMs. We study these three solutions across various
conditional controls, including edge, depth, human pose, low-resolution image
and masked image with text-to-image latent consistency models.