ChatPaper.aiChatPaper

CCM: 텍스트-이미지 일관성 모델에 조건부 제어 기능 추가

CCM: Adding Conditional Controls to Text-to-Image Consistency Models

December 12, 2023
저자: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
cs.AI

초록

일관성 모델(Consistency Models, CMs)은 시각적 콘텐츠를 효율적이고 고품질로 생성하는 데 유망한 가능성을 보여주었습니다. 그러나 사전 학습된 CMs에 새로운 조건부 제어를 추가하는 방법은 아직 탐구되지 않았습니다. 본 기술 보고서에서는 CMs에 ControlNet과 유사한 조건부 제어를 추가하기 위한 대안적 전략을 고려하고 세 가지 중요한 발견을 제시합니다. 첫째, 확산 모델(Diffusion Models, DMs)을 위해 훈련된 ControlNet은 고수준의 의미론적 제어에는 CMs에 직접 적용할 수 있지만, 저수준의 세부 사항과 사실감 제어에는 어려움을 겪습니다. 둘째, CMs는 독자적인 생성 모델 클래스로 작동하며, 이를 기반으로 Song 등이 제안한 일관성 훈련(Consistency Training)을 사용하여 ControlNet을 처음부터 훈련시킬 수 있습니다. 셋째, 경량 어댑터는 다중 조건 하에서 일관성 훈련을 통해 공동 최적화될 수 있으며, 이를 통해 DMs 기반 ControlNet을 CMs로 신속하게 전이할 수 있습니다. 우리는 이러한 세 가지 해결책을 에지, 깊이, 인간 포즈, 저해상도 이미지, 텍스트-이미지 잠재 일관성 모델을 사용한 마스크 이미지 등 다양한 조건부 제어에 걸쳐 연구합니다.
English
Consistency Models (CMs) have showed a promise in creating visual content efficiently and with high quality. However, the way to add new conditional controls to the pretrained CMs has not been explored. In this technical report, we consider alternative strategies for adding ControlNet-like conditional control to CMs and present three significant findings. 1) ControlNet trained for diffusion models (DMs) can be directly applied to CMs for high-level semantic controls but struggles with low-level detail and realism control. 2) CMs serve as an independent class of generative models, based on which ControlNet can be trained from scratch using Consistency Training proposed by Song et al. 3) A lightweight adapter can be jointly optimized under multiple conditions through Consistency Training, allowing for the swift transfer of DMs-based ControlNet to CMs. We study these three solutions across various conditional controls, including edge, depth, human pose, low-resolution image and masked image with text-to-image latent consistency models.
PDF150December 15, 2024