ChatPaper.aiChatPaper

SNOOPI: Destilación por Difusión de un Paso Potenciada con Orientación Adecuada

SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance

December 3, 2024
Autores: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI

Resumen

Enfoques recientes han dado resultados prometedores en destilar modelos de difusión de texto a imagen de múltiples pasos en modelos de un solo paso. La técnica de destilación eficiente de vanguardia, es decir, SwiftBrushv2 (SBv2), incluso supera el rendimiento del modelo maestro con recursos limitados. Sin embargo, nuestro estudio revela su inestabilidad al manejar diferentes estructuras de modelos de difusión debido al uso de una escala de guía fija dentro de la pérdida de Destilación de Puntuación Variacional (VSD). Otra debilidad de los modelos de difusión de un solo paso existentes es la falta de soporte para la guía de indicaciones negativas, lo cual es crucial en la generación práctica de imágenes. Este artículo presenta SNOOPI, un nuevo marco diseñado para abordar estas limitaciones al mejorar la guía en modelos de difusión de un solo paso durante el entrenamiento y la inferencia. En primer lugar, mejoramos efectivamente la estabilidad del entrenamiento a través de Proper Guidance-SwiftBrush (PG-SB), que emplea un enfoque de guía sin clasificador de escala aleatoria. Al variar la escala de guía de ambos modelos maestros, ampliamos sus distribuciones de salida, lo que resulta en una pérdida de VSD más robusta que permite que SB funcione eficazmente en diferentes estructuras mientras mantiene un rendimiento competitivo. En segundo lugar, proponemos un método sin entrenamiento llamado Negative-Away Steer Attention (NASA), que integra indicaciones negativas en modelos de difusión de un solo paso a través de una atención cruzada para suprimir elementos no deseados en las imágenes generadas. Nuestros resultados experimentales muestran que nuestros métodos propuestos mejoran significativamente los modelos de referencia en diversas métricas. Notablemente, logramos una puntuación HPSv2 de 31.08, estableciendo un nuevo punto de referencia de vanguardia para modelos de difusión de un solo paso.
English
Recent approaches have yielded promising results in distilling multi-step text-to-image diffusion models into one-step ones. The state-of-the-art efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the teacher model's performance with limited resources. However, our study reveals its instability when handling different diffusion model backbones due to using a fixed guidance scale within the Variational Score Distillation (VSD) loss. Another weakness of the existing one-step diffusion models is the missing support for negative prompt guidance, which is crucial in practical image generation. This paper presents SNOOPI, a novel framework designed to address these limitations by enhancing the guidance in one-step diffusion models during both training and inference. First, we effectively enhance training stability through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale classifier-free guidance approach. By varying the guidance scale of both teacher models, we broaden their output distributions, resulting in a more robust VSD loss that enables SB to perform effectively across diverse backbones while maintaining competitive performance. Second, we propose a training-free method called Negative-Away Steer Attention (NASA), which integrates negative prompts into one-step diffusion models via cross-attention to suppress undesired elements in generated images. Our experimental results show that our proposed methods significantly improve baseline models across various metrics. Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art benchmark for one-step diffusion models.

Summary

AI-Generated Summary

PDF1143December 5, 2024