CCM: Добавление условного управления в модели согласованности для генерации изображений из текста
CCM: Adding Conditional Controls to Text-to-Image Consistency Models
December 12, 2023
Авторы: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
cs.AI
Аннотация
Модели согласованности (Consistency Models, CMs) продемонстрировали потенциал в эффективном создании визуального контента высокого качества. Однако способы добавления новых условных управлений к предобученным CMs остаются неисследованными. В данном техническом отчете мы рассматриваем альтернативные стратегии для добавления условного управления, подобного ControlNet, к CMs и представляем три значимых результата. 1) ControlNet, обученный для диффузионных моделей (DMs), может быть напрямую применен к CMs для управления высокоуровневой семантикой, но испытывает трудности с управлением низкоуровневыми деталями и реализмом. 2) CMs представляют собой самостоятельный класс генеративных моделей, на основе которых ControlNet может быть обучен с нуля с использованием метода Consistency Training, предложенного Song et al. 3) Легковесный адаптер может быть совместно оптимизирован для работы с несколькими условиями с помощью Consistency Training, что позволяет быстро переносить ControlNet, основанный на DMs, на CMs. Мы исследуем эти три решения для различных типов условных управлений, включая границы, глубину, позу человека, изображения низкого разрешения и маскированные изображения с использованием латентных моделей согласованности для текста в изображение.
English
Consistency Models (CMs) have showed a promise in creating visual content
efficiently and with high quality. However, the way to add new conditional
controls to the pretrained CMs has not been explored. In this technical report,
we consider alternative strategies for adding ControlNet-like conditional
control to CMs and present three significant findings. 1) ControlNet trained
for diffusion models (DMs) can be directly applied to CMs for high-level
semantic controls but struggles with low-level detail and realism control. 2)
CMs serve as an independent class of generative models, based on which
ControlNet can be trained from scratch using Consistency Training proposed by
Song et al. 3) A lightweight adapter can be jointly optimized under multiple
conditions through Consistency Training, allowing for the swift transfer of
DMs-based ControlNet to CMs. We study these three solutions across various
conditional controls, including edge, depth, human pose, low-resolution image
and masked image with text-to-image latent consistency models.