Устранение пересыщения и артефактов высоких масштабов руководства в моделях диффузии
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
October 3, 2024
Авторы: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI
Аннотация
Руководство без классификатора (CFG) критически важно для улучшения как качества генерации, так и выравнивания между входным условием и конечным результатом в моделях диффузии. Хотя для улучшения этих аспектов обычно требуется высокий уровень руководства, это также вызывает пересыщение и нереалистичные артефакты. В данной статье мы пересматриваем правило обновления CFG и вносим изменения для решения этой проблемы. Сначала мы декомпозируем термин обновления в CFG на параллельные и ортогональные компоненты относительно условного прогноза модели и замечаем, что параллельная компонента в основном вызывает пересыщение, в то время как ортогональная компонента улучшает качество изображения. Соответственно, мы предлагаем уменьшить вес параллельной компоненты для достижения высококачественной генерации без пересыщения. Кроме того, мы устанавливаем связь между CFG и градиентным подъемом и представляем новый метод пересчета и импульса для правила обновления CFG на основе этого понимания. Наш подход, названный адаптивное проецированное руководство (APG), сохраняет преимущества улучшения качества CFG, позволяя использовать более высокие уровни руководства без пересыщения. APG легко внедрить и практически не увеличивает вычислительной нагрузки на процесс выборки. Через обширные эксперименты мы демонстрируем, что APG совместим с различными условными моделями диффузии и сэмплерами, что приводит к улучшению показателей FID, recall и насыщенности, сохраняя при этом точность, сравнимую с CFG, делая наш метод более эффективной альтернативой стандартному руководству без классификатора.
English
Classifier-free guidance (CFG) is crucial for improving both generation
quality and alignment between the input condition and final output in diffusion
models. While a high guidance scale is generally required to enhance these
aspects, it also causes oversaturation and unrealistic artifacts. In this
paper, we revisit the CFG update rule and introduce modifications to address
this issue. We first decompose the update term in CFG into parallel and
orthogonal components with respect to the conditional model prediction and
observe that the parallel component primarily causes oversaturation, while the
orthogonal component enhances image quality. Accordingly, we propose
down-weighting the parallel component to achieve high-quality generations
without oversaturation. Additionally, we draw a connection between CFG and
gradient ascent and introduce a new rescaling and momentum method for the CFG
update rule based on this insight. Our approach, termed adaptive projected
guidance (APG), retains the quality-boosting advantages of CFG while enabling
the use of higher guidance scales without oversaturation. APG is easy to
implement and introduces practically no additional computational overhead to
the sampling process. Through extensive experiments, we demonstrate that APG is
compatible with various conditional diffusion models and samplers, leading to
improved FID, recall, and saturation scores while maintaining precision
comparable to CFG, making our method a superior plug-and-play alternative to
standard classifier-free guidance.Summary
AI-Generated Summary