ChatPaper.aiChatPaper

Общие расписания шума диффузии и шаги выборки имеют недостатки

Common Diffusion Noise Schedules and Sample Steps are Flawed

May 15, 2023
Авторы: Shanchuan Lin, Bingchen Liu, Jiashi Li, Xiao Yang
cs.AI

Аннотация

Мы обнаружили, что стандартные графики шума в диффузионных моделях не обеспечивают нулевого соотношения сигнал-шум (SNR) на последнем временном шаге, а некоторые реализации диффузионных сэмплеров не начинают с последнего шага. Такие решения ошибочны и не учитывают, что на этапе вывода модель получает чистый гауссовский шум, что создает несоответствие между обучением и выводом. Мы показываем, что этот недостаток вызывает реальные проблемы в существующих реализациях. В Stable Diffusion он серьезно ограничивает модель, позволяя генерировать только изображения средней яркости и препятствуя созданию очень ярких и темных образцов. Мы предлагаем несколько простых исправлений: (1) масштабировать график шума для обеспечения нулевого SNR на последнем шаге; (2) обучать модель с предсказанием v; (3) изменить сэмплер, чтобы он всегда начинал с последнего шага; (4) масштабировать классификатор-фри гайдинг для предотвращения переэкспонирования. Эти простые изменения обеспечивают согласованность диффузионного процесса между обучением и выводом и позволяют модели генерировать образцы, более соответствующие исходному распределению данных.
English
We discover that common diffusion noise schedules do not enforce the last timestep to have zero signal-to-noise ratio (SNR), and some implementations of diffusion samplers do not start from the last timestep. Such designs are flawed and do not reflect the fact that the model is given pure Gaussian noise at inference, creating a discrepancy between training and inference. We show that the flawed design causes real problems in existing implementations. In Stable Diffusion, it severely limits the model to only generate images with medium brightness and prevents it from generating very bright and dark samples. We propose a few simple fixes: (1) rescale the noise schedule to enforce zero terminal SNR; (2) train the model with v prediction; (3) change the sampler to always start from the last timestep; (4) rescale classifier-free guidance to prevent over-exposure. These simple changes ensure the diffusion process is congruent between training and inference and allow the model to generate samples more faithful to the original data distribution.
PDF115December 15, 2024