ChatPaper.aiChatPaper

SNOOPI: Destilação por Difusão em um Passo Superpotencializada com Orientação Adequada

SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance

December 3, 2024
Autores: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI

Resumo

Abordagens recentes têm produzido resultados promissores na destilação de modelos de difusão de texto para imagem de vários passos em modelos de um único passo. A técnica de destilação eficiente de ponta, ou seja, SwiftBrushv2 (SBv2), até mesmo supera o desempenho do modelo professor com recursos limitados. No entanto, nosso estudo revela a sua instabilidade ao lidar com diferentes espinhas dorsais de modelos de difusão devido ao uso de uma escala de orientação fixa dentro da perda de Destilação de Pontuação Variacional (VSD). Outra fraqueza dos modelos de difusão de um único passo existentes é a falta de suporte para orientação negativa de prompt, que é crucial na geração prática de imagens. Este artigo apresenta o SNOOPI, um novo framework projetado para abordar essas limitações ao aprimorar a orientação em modelos de difusão de um único passo durante o treinamento e a inferência. Primeiramente, aprimoramos efetivamente a estabilidade do treinamento por meio do Proper Guidance-SwiftBrush (PG-SB), que emprega uma abordagem de orientação sem classificador de escala aleatória. Variando a escala de orientação de ambos os modelos professores, ampliamos suas distribuições de saída, resultando em uma perda de VSD mais robusta que permite que o SB atue de forma eficaz em várias espinhas dorsais, mantendo um desempenho competitivo. Em segundo lugar, propomos um método sem treinamento chamado Negative-Away Steer Attention (NASA), que integra prompts negativos em modelos de difusão de um único passo via atenção cruzada para suprimir elementos indesejados em imagens geradas. Nossos resultados experimentais mostram que nossos métodos propostos melhoram significativamente os modelos de referência em várias métricas. Notavelmente, alcançamos uma pontuação HPSv2 de 31.08, estabelecendo um novo benchmark de ponta para modelos de difusão de um único passo.
English
Recent approaches have yielded promising results in distilling multi-step text-to-image diffusion models into one-step ones. The state-of-the-art efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the teacher model's performance with limited resources. However, our study reveals its instability when handling different diffusion model backbones due to using a fixed guidance scale within the Variational Score Distillation (VSD) loss. Another weakness of the existing one-step diffusion models is the missing support for negative prompt guidance, which is crucial in practical image generation. This paper presents SNOOPI, a novel framework designed to address these limitations by enhancing the guidance in one-step diffusion models during both training and inference. First, we effectively enhance training stability through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale classifier-free guidance approach. By varying the guidance scale of both teacher models, we broaden their output distributions, resulting in a more robust VSD loss that enables SB to perform effectively across diverse backbones while maintaining competitive performance. Second, we propose a training-free method called Negative-Away Steer Attention (NASA), which integrates negative prompts into one-step diffusion models via cross-attention to suppress undesired elements in generated images. Our experimental results show that our proposed methods significantly improve baseline models across various metrics. Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art benchmark for one-step diffusion models.

Summary

AI-Generated Summary

PDF1143December 5, 2024