ChatPaper.aiChatPaper

SNOOPI : Distillation de Diffusion en une Étape Superchargée avec un Guidage Approprié

SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance

December 3, 2024
Auteurs: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI

Résumé

Les approches récentes ont donné des résultats prometteurs dans la distillation de modèles de diffusion texte-image à plusieurs étapes en modèles à une seule étape. La technique de distillation efficace de pointe, c'est-à-dire SwiftBrushv2 (SBv2), dépasse même les performances du modèle enseignant avec des ressources limitées. Cependant, notre étude révèle son instabilité lors de la manipulation de différentes structures de modèles de diffusion en raison de l'utilisation d'une échelle de guidage fixe dans la perte de distillation du score variationnel (VSD). Une autre faiblesse des modèles de diffusion à une seule étape existants est le manque de support pour un guidage négatif de l'invite, qui est crucial dans la génération d'images pratique. Cet article présente SNOOPI, un nouveau cadre conçu pour remédier à ces limitations en améliorant le guidage dans les modèles de diffusion à une seule étape lors de l'entraînement et de l'inférence. Tout d'abord, nous améliorons efficacement la stabilité de l'entraînement grâce à Proper Guidance-SwiftBrush (PG-SB), qui utilise une approche de guidage sans classificateur à échelle aléatoire. En variant l'échelle de guidage des deux modèles enseignants, nous élargissons leurs distributions de sortie, ce qui se traduit par une perte VSD plus robuste permettant à SB de fonctionner efficacement sur des structures diverses tout en maintenant des performances compétitives. Deuxièmement, nous proposons une méthode sans entraînement appelée Negative-Away Steer Attention (NASA), qui intègre des invites négatives dans les modèles de diffusion à une seule étape via une attention croisée pour supprimer les éléments indésirables dans les images générées. Nos résultats expérimentaux montrent que nos méthodes proposées améliorent significativement les modèles de base selon diverses mesures. Remarquablement, nous atteignons un score HPSv2 de 31,08, établissant ainsi une nouvelle référence de pointe pour les modèles de diffusion à une seule étape.
English
Recent approaches have yielded promising results in distilling multi-step text-to-image diffusion models into one-step ones. The state-of-the-art efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the teacher model's performance with limited resources. However, our study reveals its instability when handling different diffusion model backbones due to using a fixed guidance scale within the Variational Score Distillation (VSD) loss. Another weakness of the existing one-step diffusion models is the missing support for negative prompt guidance, which is crucial in practical image generation. This paper presents SNOOPI, a novel framework designed to address these limitations by enhancing the guidance in one-step diffusion models during both training and inference. First, we effectively enhance training stability through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale classifier-free guidance approach. By varying the guidance scale of both teacher models, we broaden their output distributions, resulting in a more robust VSD loss that enables SB to perform effectively across diverse backbones while maintaining competitive performance. Second, we propose a training-free method called Negative-Away Steer Attention (NASA), which integrates negative prompts into one-step diffusion models via cross-attention to suppress undesired elements in generated images. Our experimental results show that our proposed methods significantly improve baseline models across various metrics. Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art benchmark for one-step diffusion models.

Summary

AI-Generated Summary

PDF1143December 5, 2024