Un Ruido Vale la Guía de Difusión
A Noise is Worth Diffusion Guidance
December 5, 2024
Autores: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim
cs.AI
Resumen
Los modelos de difusión destacan en la generación de imágenes de alta calidad. Sin embargo, los modelos de difusión actuales tienen dificultades para producir imágenes confiables sin métodos de guía, como la guía sin clasificador (CFG). ¿Son realmente necesarios los métodos de guía? Observando que el ruido obtenido a través de la inversión de la difusión puede reconstruir imágenes de alta calidad sin guía, nos enfocamos en el ruido inicial del proceso de eliminación de ruido. Al mapear el ruido gaussiano a 'ruido sin guía', descubrimos que los pequeños componentes de baja magnitud y baja frecuencia mejoran significativamente el proceso de eliminación de ruido, eliminando la necesidad de guía y mejorando tanto el rendimiento de inferencia como la memoria. Ampliando esto, proponemos \ours, un método novedoso que reemplaza los métodos de guía con un solo refinamiento del ruido inicial. Este ruido refinado permite la generación de imágenes de alta calidad sin guía, dentro del mismo proceso de difusión. Nuestro modelo de refinamiento de ruido aprovecha el aprendizaje eficiente en el espacio de ruido, logrando una convergencia rápida y un rendimiento sólido con solo 50K pares de texto e imagen. Validamos su efectividad a través de diversas métricas y analizamos cómo el ruido refinado puede eliminar la necesidad de guía. Consulte nuestra página del proyecto: https://cvlab-kaist.github.io/NoiseRefine/.
English
Diffusion models excel in generating high-quality images. However, current
diffusion models struggle to produce reliable images without guidance methods,
such as classifier-free guidance (CFG). Are guidance methods truly necessary?
Observing that noise obtained via diffusion inversion can reconstruct
high-quality images without guidance, we focus on the initial noise of the
denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we
uncover that small low-magnitude low-frequency components significantly enhance
the denoising process, removing the need for guidance and thus improving both
inference throughput and memory. Expanding on this, we propose \ours, a novel
method that replaces guidance methods with a single refinement of the initial
noise. This refined noise enables high-quality image generation without
guidance, within the same diffusion pipeline. Our noise-refining model
leverages efficient noise-space learning, achieving rapid convergence and
strong performance with just 50K text-image pairs. We validate its
effectiveness across diverse metrics and analyze how refined noise can
eliminate the need for guidance. See our project page:
https://cvlab-kaist.github.io/NoiseRefine/.Summary
AI-Generated Summary