Un Ruido Vale la Guía de Difusión

Resumen

Los modelos de difusión destacan en la generación de imágenes de alta calidad. Sin embargo, los modelos de difusión actuales tienen dificultades para producir imágenes confiables sin métodos de guía, como la guía sin clasificador (CFG). ¿Son realmente necesarios los métodos de guía? Observando que el ruido obtenido a través de la inversión de la difusión puede reconstruir imágenes de alta calidad sin guía, nos enfocamos en el ruido inicial del proceso de eliminación de ruido. Al mapear el ruido gaussiano a 'ruido sin guía', descubrimos que los pequeños componentes de baja magnitud y baja frecuencia mejoran significativamente el proceso de eliminación de ruido, eliminando la necesidad de guía y mejorando tanto el rendimiento de inferencia como la memoria. Ampliando esto, proponemos \ours, un método novedoso que reemplaza los métodos de guía con un solo refinamiento del ruido inicial. Este ruido refinado permite la generación de imágenes de alta calidad sin guía, dentro del mismo proceso de difusión. Nuestro modelo de refinamiento de ruido aprovecha el aprendizaje eficiente en el espacio de ruido, logrando una convergencia rápida y un rendimiento sólido con solo 50K pares de texto e imagen. Validamos su efectividad a través de diversas métricas y analizamos cómo el ruido refinado puede eliminar la necesidad de guía. Consulte nuestra página del proyecto: https://cvlab-kaist.github.io/NoiseRefine/.

English

Diffusion models excel in generating high-quality images. However, current diffusion models struggle to produce reliable images without guidance methods, such as classifier-free guidance (CFG). Are guidance methods truly necessary? Observing that noise obtained via diffusion inversion can reconstruct high-quality images without guidance, we focus on the initial noise of the denoising pipeline. By mapping Gaussian noise to `guidance-free noise', we uncover that small low-magnitude low-frequency components significantly enhance the denoising process, removing the need for guidance and thus improving both inference throughput and memory. Expanding on this, we propose \ours, a novel method that replaces guidance methods with a single refinement of the initial noise. This refined noise enables high-quality image generation without guidance, within the same diffusion pipeline. Our noise-refining model leverages efficient noise-space learning, achieving rapid convergence and strong performance with just 50K text-image pairs. We validate its effectiveness across diverse metrics and analyze how refined noise can eliminate the need for guidance. See our project page: https://cvlab-kaist.github.io/NoiseRefine/.

Un Ruido Vale la Guía de Difusión

A Noise is Worth Diffusion Guidance

Resumen

Support