ChatPaper.aiChatPaper

NitroFusion: Difusão de Alta Fidelidade em um Único Passo Através de Treinamento Adversarial Dinâmico

NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training

December 2, 2024
Autores: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI

Resumo

Apresentamos o NitroFusion, uma abordagem fundamentalmente diferente para a difusão em um único passo que alcança geração de alta qualidade por meio de um framework adversarial dinâmico. Enquanto os métodos de um único passo oferecem vantagens significativas de velocidade, geralmente sofrem de degradação de qualidade em comparação com seus equivalentes de vários passos. Assim como um painel de críticos de arte fornece feedback abrangente ao se especializar em diferentes aspectos como composição, cor e técnica, nossa abordagem mantém um grande conjunto de cabeças de discriminador especializadas que orientam coletivamente o processo de geração. Cada grupo de discriminadores desenvolve expertise em aspectos específicos de qualidade em diferentes níveis de ruído, fornecendo feedback diversificado que possibilita uma geração de um único passo de alta fidelidade. Nosso framework combina: (i) um conjunto de discriminadores dinâmicos com grupos de discriminadores especializados para melhorar a qualidade da geração, (ii) mecanismos de atualização estratégica para evitar o overfitting do discriminador e (iii) cabeças de discriminador global-local para avaliação de qualidade em múltiplas escalas, e treinamento incondicional/condicional para uma geração equilibrada. Além disso, nosso framework suporta de forma única o deploy flexível por meio de refinamento de baixo para cima, permitindo aos usuários escolher dinamicamente entre 1-4 etapas de denoising com o mesmo modelo para trocas diretas entre qualidade e velocidade. Através de experimentos abrangentes, demonstramos que o NitroFusion supera significativamente os métodos de um único passo existentes em várias métricas de avaliação, destacando-se especialmente na preservação de detalhes finos e consistência global.
English
We introduce NitroFusion, a fundamentally different approach to single-step diffusion that achieves high-quality generation through a dynamic adversarial framework. While one-step methods offer dramatic speed advantages, they typically suffer from quality degradation compared to their multi-step counterparts. Just as a panel of art critics provides comprehensive feedback by specializing in different aspects like composition, color, and technique, our approach maintains a large pool of specialized discriminator heads that collectively guide the generation process. Each discriminator group develops expertise in specific quality aspects at different noise levels, providing diverse feedback that enables high-fidelity one-step generation. Our framework combines: (i) a dynamic discriminator pool with specialized discriminator groups to improve generation quality, (ii) strategic refresh mechanisms to prevent discriminator overfitting, and (iii) global-local discriminator heads for multi-scale quality assessment, and unconditional/conditional training for balanced generation. Additionally, our framework uniquely supports flexible deployment through bottom-up refinement, allowing users to dynamically choose between 1-4 denoising steps with the same model for direct quality-speed trade-offs. Through comprehensive experiments, we demonstrate that NitroFusion significantly outperforms existing single-step methods across multiple evaluation metrics, particularly excelling in preserving fine details and global consistency.

Summary

AI-Generated Summary

PDF192December 5, 2024