Síntesis Rápida de Imágenes de Alta Resolución con Distilación de Difusión Adversarial en el Espacio LatenteFast High-Resolution Image Synthesis with Latent Adversarial Diffusion
Distillation
Los modelos de difusión son el principal motor de progreso en la síntesis de imágenes y videos, pero sufren de una velocidad de inferencia lenta. Los métodos de destilación, como el recientemente introducido Adversarial Diffusion Distillation (ADD), buscan transformar el modelo de una inferencia de múltiples pasos a un solo paso, aunque a costa de una optimización costosa y difícil debido a su dependencia de un discriminador DINOv2 preentrenado y fijo. Introducimos Latent Adversarial Diffusion Distillation (LADD), un enfoque novedoso de destilación que supera las limitaciones de ADD. A diferencia de ADD basado en píxeles, LADD utiliza características generativas de modelos de difusión latente preentrenados. Este enfoque simplifica el entrenamiento y mejora el rendimiento, permitiendo la síntesis de imágenes de alta resolución con múltiples relaciones de aspecto. Aplicamos LADD a Stable Diffusion 3 (8B) para obtener SD3-Turbo, un modelo rápido que iguala el rendimiento de los generadores de texto a imagen más avanzados utilizando solo cuatro pasos de muestreo no guiados. Además, investigamos sistemáticamente su comportamiento de escalado y demostramos la efectividad de LADD en diversas aplicaciones, como la edición de imágenes y la restauración.