Безусловные априорные распределения имеют значение! Улучшение условной генерации в тонко настроенных моделях диффузии
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models
March 26, 2025
Авторы: Prin Phunyaphibarn, Phillip Y. Lee, Jaihoon Kim, Minhyuk Sung
cs.AI
Аннотация
Classifier-Free Guidance (CFG) — это фундаментальная техника при обучении условных диффузионных моделей. Обычная практика для обучения на основе CFG заключается в использовании одной сети для одновременного изучения как условного, так и безусловного предсказания шума, с небольшим уровнем dropout для условности. Однако мы наблюдаем, что совместное обучение безусловного шума с ограниченной пропускной способностью в процессе обучения приводит к плохим априорным оценкам для безусловного случая. Более того, эти некачественные предсказания безусловного шума становятся серьезной причиной ухудшения качества условной генерации. Вдохновленные тем фактом, что большинство условных моделей на основе CFG обучаются путем тонкой настройки базовой модели с лучшей безусловной генерацией, мы сначала показываем, что простое замещение безусловного шума в CFG на предсказанный базовой моделью может значительно улучшить условную генерацию. Кроме того, мы демонстрируем, что для замены безусловного шума может быть использована диффузионная модель, отличная от той, на которой обучалась тонко настроенная модель. Мы экспериментально подтверждаем наше утверждение на ряде условных моделей на основе CFG для генерации как изображений, так и видео, включая Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter и InstructPix2Pix.
English
Classifier-Free Guidance (CFG) is a fundamental technique in training
conditional diffusion models. The common practice for CFG-based training is to
use a single network to learn both conditional and unconditional noise
prediction, with a small dropout rate for conditioning. However, we observe
that the joint learning of unconditional noise with limited bandwidth in
training results in poor priors for the unconditional case. More importantly,
these poor unconditional noise predictions become a serious reason for
degrading the quality of conditional generation. Inspired by the fact that most
CFG-based conditional models are trained by fine-tuning a base model with
better unconditional generation, we first show that simply replacing the
unconditional noise in CFG with that predicted by the base model can
significantly improve conditional generation. Furthermore, we show that a
diffusion model other than the one the fine-tuned model was trained on can be
used for unconditional noise replacement. We experimentally verify our claim
with a range of CFG-based conditional models for both image and video
generation, including Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter, and
InstructPix2Pix.Summary
AI-Generated Summary