CCM: Hinzufügen bedingter Steuerungen zu Konsistenzmodellen für Text-zu-Bild-Generierung

papers.abstract

Consistency Models (CMs) haben sich als vielversprechend erwiesen, um visuelle Inhalte effizient und in hoher Qualität zu erzeugen. Allerdings wurde die Möglichkeit, neue bedingte Steuerungen zu vortrainierten CMs hinzuzufügen, bisher nicht untersucht. In diesem technischen Bericht betrachten wir alternative Strategien zur Hinzufügung von ControlNet-ähnlicher bedingter Steuerung zu CMs und präsentieren drei bedeutende Erkenntnisse. 1) ControlNet, das für Diffusionsmodelle (DMs) trainiert wurde, kann direkt auf CMs angewendet werden, um semantische Steuerungen auf hoher Ebene zu ermöglichen, hat jedoch Schwierigkeiten mit der Steuerung von Details und Realismus auf niedriger Ebene. 2) CMs bilden eine eigenständige Klasse von generativen Modellen, auf deren Basis ControlNet von Grund auf mithilfe des von Song et al. vorgeschlagenen Consistency Trainings trainiert werden kann. 3) Ein leichtgewichtiger Adapter kann unter mehreren Bedingungen gemeinsam durch Consistency Training optimiert werden, was eine schnelle Übertragung von DMs-basiertem ControlNet auf CMs ermöglicht. Wir untersuchen diese drei Lösungsansätze für verschiedene bedingte Steuerungen, darunter Kanten, Tiefe, menschliche Pose, niedrigauflösende Bilder und maskierte Bilder mit text-zu-bild latenten Konsistenzmodellen.

English

Consistency Models (CMs) have showed a promise in creating visual content efficiently and with high quality. However, the way to add new conditional controls to the pretrained CMs has not been explored. In this technical report, we consider alternative strategies for adding ControlNet-like conditional control to CMs and present three significant findings. 1) ControlNet trained for diffusion models (DMs) can be directly applied to CMs for high-level semantic controls but struggles with low-level detail and realism control. 2) CMs serve as an independent class of generative models, based on which ControlNet can be trained from scratch using Consistency Training proposed by Song et al. 3) A lightweight adapter can be jointly optimized under multiple conditions through Consistency Training, allowing for the swift transfer of DMs-based ControlNet to CMs. We study these three solutions across various conditional controls, including edge, depth, human pose, low-resolution image and masked image with text-to-image latent consistency models.

CCM: Hinzufügen bedingter Steuerungen zu Konsistenzmodellen für Text-zu-Bild-Generierung

CCM: Adding Conditional Controls to Text-to-Image Consistency Models

papers.abstract

Support