ChatPaper.aiChatPaper

¡Los priores incondicionales importan! Mejorando la generación condicional en modelos de difusión ajustados finamente

Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

March 26, 2025
Autores: Prin Phunyaphibarn, Phillip Y. Lee, Jaihoon Kim, Minhyuk Sung
cs.AI

Resumen

Classifier-Free Guidance (CFG) es una técnica fundamental en el entrenamiento de modelos de difusión condicionales. La práctica común para el entrenamiento basado en CFG es utilizar una única red para aprender tanto la predicción de ruido condicional como la incondicional, con una pequeña tasa de dropout para la condición. Sin embargo, observamos que el aprendizaje conjunto del ruido incondicional con un ancho de banda limitado durante el entrenamiento resulta en priors deficientes para el caso incondicional. Más importante aún, estas predicciones deficientes de ruido incondicional se convierten en una razón seria para la degradación de la calidad de la generación condicional. Inspirados por el hecho de que la mayoría de los modelos condicionales basados en CFG se entrenan mediante el ajuste fino de un modelo base con mejor generación incondicional, primero demostramos que simplemente reemplazar el ruido incondicional en CFG con el predicho por el modelo base puede mejorar significativamente la generación condicional. Además, mostramos que un modelo de difusión distinto al utilizado para entrenar el modelo ajustado puede emplearse para el reemplazo del ruido incondicional. Verificamos experimentalmente nuestra afirmación con una variedad de modelos condicionales basados en CFG para la generación de imágenes y videos, incluyendo Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter e InstructPix2Pix.
English
Classifier-Free Guidance (CFG) is a fundamental technique in training conditional diffusion models. The common practice for CFG-based training is to use a single network to learn both conditional and unconditional noise prediction, with a small dropout rate for conditioning. However, we observe that the joint learning of unconditional noise with limited bandwidth in training results in poor priors for the unconditional case. More importantly, these poor unconditional noise predictions become a serious reason for degrading the quality of conditional generation. Inspired by the fact that most CFG-based conditional models are trained by fine-tuning a base model with better unconditional generation, we first show that simply replacing the unconditional noise in CFG with that predicted by the base model can significantly improve conditional generation. Furthermore, we show that a diffusion model other than the one the fine-tuned model was trained on can be used for unconditional noise replacement. We experimentally verify our claim with a range of CFG-based conditional models for both image and video generation, including Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter, and InstructPix2Pix.

Summary

AI-Generated Summary

PDF223March 27, 2025