NitroFusion : Diffusion en une seule étape haute fidélité grâce à l'entraînement adversarial dynamique
NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training
December 2, 2024
Auteurs: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song
cs.AI
Résumé
Nous présentons NitroFusion, une approche fondamentalement différente de la diffusion en une seule étape qui permet d'obtenir une génération de haute qualité grâce à un cadre adversarial dynamique. Alors que les méthodes en une seule étape offrent des avantages de vitesse spectaculaires, elles souffrent généralement d'une dégradation de la qualité par rapport à leurs homologues multi-étapes. Tout comme un panel de critiques d'art fournit des retours complets en se spécialisant dans différents aspects tels que la composition, la couleur et la technique, notre approche maintient un grand nombre de têtes de discriminateur spécialisées qui guident collectivement le processus de génération. Chaque groupe de discriminateurs développe une expertise dans des aspects de qualité spécifiques à différents niveaux de bruit, fournissant des retours divers qui permettent une génération en une seule étape de haute fidélité. Notre cadre combine : (i) un pool de discriminateurs dynamiques avec des groupes de discriminateurs spécialisés pour améliorer la qualité de la génération, (ii) des mécanismes de rafraîchissement stratégiques pour éviter le surajustement du discriminateur, et (iii) des têtes de discriminateur global-local pour une évaluation de la qualité multi-échelle, et un entraînement inconditionnel/conditionnel pour une génération équilibrée. De plus, notre cadre prend en charge de manière unique un déploiement flexible grâce à un affinement ascendant, permettant aux utilisateurs de choisir dynamiquement entre 1 et 4 étapes de débruitage avec le même modèle pour des compromis directs entre qualité et vitesse. À travers des expériences approfondies, nous démontrons que NitroFusion surpasse significativement les méthodes en une seule étape existantes sur plusieurs métriques d'évaluation, se distinguant particulièrement dans la préservation des détails fins et de la cohérence globale.
English
We introduce NitroFusion, a fundamentally different approach to single-step
diffusion that achieves high-quality generation through a dynamic adversarial
framework. While one-step methods offer dramatic speed advantages, they
typically suffer from quality degradation compared to their multi-step
counterparts. Just as a panel of art critics provides comprehensive feedback by
specializing in different aspects like composition, color, and technique, our
approach maintains a large pool of specialized discriminator heads that
collectively guide the generation process. Each discriminator group develops
expertise in specific quality aspects at different noise levels, providing
diverse feedback that enables high-fidelity one-step generation. Our framework
combines: (i) a dynamic discriminator pool with specialized discriminator
groups to improve generation quality, (ii) strategic refresh mechanisms to
prevent discriminator overfitting, and (iii) global-local discriminator heads
for multi-scale quality assessment, and unconditional/conditional training for
balanced generation. Additionally, our framework uniquely supports flexible
deployment through bottom-up refinement, allowing users to dynamically choose
between 1-4 denoising steps with the same model for direct quality-speed
trade-offs. Through comprehensive experiments, we demonstrate that NitroFusion
significantly outperforms existing single-step methods across multiple
evaluation metrics, particularly excelling in preserving fine details and
global consistency.Summary
AI-Generated Summary