Общие расписания шума диффузии и шаги выборки имеют недостатки
Common Diffusion Noise Schedules and Sample Steps are Flawed
May 15, 2023
Авторы: Shanchuan Lin, Bingchen Liu, Jiashi Li, Xiao Yang
cs.AI
Аннотация
Мы обнаружили, что стандартные графики шума в диффузионных моделях не обеспечивают нулевого соотношения сигнал-шум (SNR) на последнем временном шаге, а некоторые реализации диффузионных сэмплеров не начинают с последнего шага. Такие решения ошибочны и не учитывают, что на этапе вывода модель получает чистый гауссовский шум, что создает несоответствие между обучением и выводом. Мы показываем, что этот недостаток вызывает реальные проблемы в существующих реализациях. В Stable Diffusion он серьезно ограничивает модель, позволяя генерировать только изображения средней яркости и препятствуя созданию очень ярких и темных образцов. Мы предлагаем несколько простых исправлений: (1) масштабировать график шума для обеспечения нулевого SNR на последнем шаге; (2) обучать модель с предсказанием v; (3) изменить сэмплер, чтобы он всегда начинал с последнего шага; (4) масштабировать классификатор-фри гайдинг для предотвращения переэкспонирования. Эти простые изменения обеспечивают согласованность диффузионного процесса между обучением и выводом и позволяют модели генерировать образцы, более соответствующие исходному распределению данных.
English
We discover that common diffusion noise schedules do not enforce the last
timestep to have zero signal-to-noise ratio (SNR), and some implementations of
diffusion samplers do not start from the last timestep. Such designs are flawed
and do not reflect the fact that the model is given pure Gaussian noise at
inference, creating a discrepancy between training and inference. We show that
the flawed design causes real problems in existing implementations. In Stable
Diffusion, it severely limits the model to only generate images with medium
brightness and prevents it from generating very bright and dark samples. We
propose a few simple fixes: (1) rescale the noise schedule to enforce zero
terminal SNR; (2) train the model with v prediction; (3) change the sampler to
always start from the last timestep; (4) rescale classifier-free guidance to
prevent over-exposure. These simple changes ensure the diffusion process is
congruent between training and inference and allow the model to generate
samples more faithful to the original data distribution.