NitroFusion: Difusão de Alta Fidelidade em um Único Passo Através de Treinamento Adversarial Dinâmico
NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training
December 2, 2024
Autores: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Resumo
Apresentamos o NitroFusion, uma abordagem fundamentalmente diferente para a difusão em um único passo que alcança geração de alta qualidade por meio de um framework adversarial dinâmico. Enquanto os métodos de um único passo oferecem vantagens significativas de velocidade, geralmente sofrem de degradação de qualidade em comparação com seus equivalentes de vários passos. Assim como um painel de críticos de arte fornece feedback abrangente ao se especializar em diferentes aspectos como composição, cor e técnica, nossa abordagem mantém um grande conjunto de cabeças de discriminador especializadas que orientam coletivamente o processo de geração. Cada grupo de discriminadores desenvolve expertise em aspectos específicos de qualidade em diferentes níveis de ruído, fornecendo feedback diversificado que possibilita uma geração de um único passo de alta fidelidade. Nosso framework combina: (i) um conjunto de discriminadores dinâmicos com grupos de discriminadores especializados para melhorar a qualidade da geração, (ii) mecanismos de atualização estratégica para evitar o overfitting do discriminador e (iii) cabeças de discriminador global-local para avaliação de qualidade em múltiplas escalas, e treinamento incondicional/condicional para uma geração equilibrada. Além disso, nosso framework suporta de forma única o deploy flexível por meio de refinamento de baixo para cima, permitindo aos usuários escolher dinamicamente entre 1-4 etapas de denoising com o mesmo modelo para trocas diretas entre qualidade e velocidade. Através de experimentos abrangentes, demonstramos que o NitroFusion supera significativamente os métodos de um único passo existentes em várias métricas de avaliação, destacando-se especialmente na preservação de detalhes finos e consistência global.
English
We introduce NitroFusion, a fundamentally different approach to single-step
diffusion that achieves high-quality generation through a dynamic adversarial
framework. While one-step methods offer dramatic speed advantages, they
typically suffer from quality degradation compared to their multi-step
counterparts. Just as a panel of art critics provides comprehensive feedback by
specializing in different aspects like composition, color, and technique, our
approach maintains a large pool of specialized discriminator heads that
collectively guide the generation process. Each discriminator group develops
expertise in specific quality aspects at different noise levels, providing
diverse feedback that enables high-fidelity one-step generation. Our framework
combines: (i) a dynamic discriminator pool with specialized discriminator
groups to improve generation quality, (ii) strategic refresh mechanisms to
prevent discriminator overfitting, and (iii) global-local discriminator heads
for multi-scale quality assessment, and unconditional/conditional training for
balanced generation. Additionally, our framework uniquely supports flexible
deployment through bottom-up refinement, allowing users to dynamically choose
between 1-4 denoising steps with the same model for direct quality-speed
trade-offs. Through comprehensive experiments, we demonstrate that NitroFusion
significantly outperforms existing single-step methods across multiple
evaluation metrics, particularly excelling in preserving fine details and
global consistency.Summary
AI-Generated Summary