NitroFusion: Высококачественная одношаговая диффузия через динамическое адверсариальное обучение
NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training
December 2, 2024
Авторы: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Аннотация
Мы представляем NitroFusion - фундаментально новый подход к одношаговой диффузии, который достигает высококачественной генерации через динамическую адверсариальную структуру. В то время как одношаговые методы предлагают значительные преимущества в скорости, они обычно страдают от деградации качества по сравнению с многошаговыми аналогами. Точно так же, как панель художественных критиков предоставляет всестороннюю обратную связь, специализируясь на различных аспектах, таких как композиция, цвет и техника, наш подход поддерживает большой пул специализированных дискриминаторов, которые совместно направляют процесс генерации. Каждая группа дискриминаторов развивает экспертизу в конкретных аспектах качества на разных уровнях шума, обеспечивая разнообразную обратную связь, способствующую высококачественной одношаговой генерации. Наша структура объединяет: (i) динамический пул дискриминаторов с специализированными группами дискриминаторов для улучшения качества генерации, (ii) стратегические механизмы обновления для предотвращения переобучения дискриминаторов и (iii) глобальные и локальные дискриминаторы для оценки качества на многих масштабах, а также безусловное/условное обучение для сбалансированной генерации. Кроме того, наша структура уникальным образом поддерживает гибкое развертывание через пошаговое улучшение, позволяя пользователям динамически выбирать между 1-4 шагами шумоподавления с той же моделью для прямой компромисс между качеством и скоростью. Через обширные эксперименты мы демонстрируем, что NitroFusion значительно превосходит существующие одношаговые методы по многим метрикам оценки, особенно выделяясь в сохранении мелких деталей и глобальной согласованности.
English
We introduce NitroFusion, a fundamentally different approach to single-step
diffusion that achieves high-quality generation through a dynamic adversarial
framework. While one-step methods offer dramatic speed advantages, they
typically suffer from quality degradation compared to their multi-step
counterparts. Just as a panel of art critics provides comprehensive feedback by
specializing in different aspects like composition, color, and technique, our
approach maintains a large pool of specialized discriminator heads that
collectively guide the generation process. Each discriminator group develops
expertise in specific quality aspects at different noise levels, providing
diverse feedback that enables high-fidelity one-step generation. Our framework
combines: (i) a dynamic discriminator pool with specialized discriminator
groups to improve generation quality, (ii) strategic refresh mechanisms to
prevent discriminator overfitting, and (iii) global-local discriminator heads
for multi-scale quality assessment, and unconditional/conditional training for
balanced generation. Additionally, our framework uniquely supports flexible
deployment through bottom-up refinement, allowing users to dynamically choose
between 1-4 denoising steps with the same model for direct quality-speed
trade-offs. Through comprehensive experiments, we demonstrate that NitroFusion
significantly outperforms existing single-step methods across multiple
evaluation metrics, particularly excelling in preserving fine details and
global consistency.Summary
AI-Generated Summary