ChatPaper.aiChatPaper

CCM: Het toevoegen van conditionele controles aan tekst-naar-beeld consistentiemodellen

CCM: Adding Conditional Controls to Text-to-Image Consistency Models

December 12, 2023
Auteurs: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
cs.AI

Samenvatting

Consistentiemodellen (CMs) hebben hun potentieel getoond bij het efficiënt en hoogwaardig creëren van visuele inhoud. Echter, de manier om nieuwe conditionele controles toe te voegen aan vooraf getrainde CMs is nog niet onderzocht. In dit technische rapport beschouwen we alternatieve strategieën voor het toevoegen van ControlNet-achtige conditionele controle aan CMs en presenteren we drie belangrijke bevindingen. 1) ControlNet, getraind voor diffusiemodellen (DMs), kan direct worden toegepast op CMs voor hoogwaardige semantische controles, maar heeft moeite met controle op laagniveau en realisme. 2) CMs vormen een onafhankelijke klasse van generatieve modellen, waarop ControlNet vanaf nul kan worden getraind met behulp van Consistentietraining zoals voorgesteld door Song et al. 3) Een lichtgewicht adapter kan gezamenlijk worden geoptimaliseerd onder meerdere condities via Consistentietraining, waardoor een snelle overdracht van DMs-gebaseerde ControlNet naar CMs mogelijk wordt. We bestuderen deze drie oplossingen voor verschillende conditionele controles, waaronder randen, diepte, menselijke houding, laagresolutiebeelden en gemaskeerde afbeeldingen met tekst-naar-beeld latentieconsistentiemodellen.
English
Consistency Models (CMs) have showed a promise in creating visual content efficiently and with high quality. However, the way to add new conditional controls to the pretrained CMs has not been explored. In this technical report, we consider alternative strategies for adding ControlNet-like conditional control to CMs and present three significant findings. 1) ControlNet trained for diffusion models (DMs) can be directly applied to CMs for high-level semantic controls but struggles with low-level detail and realism control. 2) CMs serve as an independent class of generative models, based on which ControlNet can be trained from scratch using Consistency Training proposed by Song et al. 3) A lightweight adapter can be jointly optimized under multiple conditions through Consistency Training, allowing for the swift transfer of DMs-based ControlNet to CMs. We study these three solutions across various conditional controls, including edge, depth, human pose, low-resolution image and masked image with text-to-image latent consistency models.
PDF150December 15, 2024