Ambient Diffusion Omni: Entrenando buenos modelos con datos deficientes
Ambient Diffusion Omni: Training Good Models with Bad Data
June 10, 2025
Autores: Giannis Daras, Adrian Rodriguez-Munoz, Adam Klivans, Antonio Torralba, Constantinos Daskalakis
cs.AI
Resumen
Demostramos cómo utilizar imágenes de baja calidad, sintéticas y fuera de distribución para mejorar la calidad de un modelo de difusión. Normalmente, los modelos de difusión se entrenan con conjuntos de datos curados que provienen de fuentes altamente filtradas, como la web y otros recursos. Mostramos que existe un valor inmenso en las imágenes de menor calidad que a menudo se descartan. Presentamos Ambient Diffusion Omni, un marco simple y fundamentado para entrenar modelos de difusión que pueden extraer señales de todas las imágenes disponibles durante el entrenamiento. Nuestro marco aprovecha dos propiedades de las imágenes naturales: la disminución de la potencia espectral según una ley de potencias y la localidad. Primero validamos nuestro marco entrenando con éxito modelos de difusión utilizando imágenes sintéticamente corrompidas por desenfoque gaussiano, compresión JPEG y desenfoque de movimiento. Luego, empleamos nuestro marco para alcanzar un estado del arte en FID en ImageNet, y mostramos mejoras significativas tanto en la calidad como en la diversidad de las imágenes en la generación de imágenes a partir de texto. La idea central es que el ruido atenúa el sesgo inicial entre la distribución de alta calidad deseada y la distribución mixta que realmente observamos. Proporcionamos una justificación teórica rigurosa de nuestro enfoque analizando el equilibrio entre aprender de datos sesgados versus datos no sesgados pero limitados a lo largo de los tiempos de difusión.
English
We show how to use low-quality, synthetic, and out-of-distribution images to
improve the quality of a diffusion model. Typically, diffusion models are
trained on curated datasets that emerge from highly filtered data pools from
the Web and other sources. We show that there is immense value in the
lower-quality images that are often discarded. We present Ambient Diffusion
Omni, a simple, principled framework to train diffusion models that can extract
signal from all available images during training. Our framework exploits two
properties of natural images -- spectral power law decay and locality. We first
validate our framework by successfully training diffusion models with images
synthetically corrupted by Gaussian blur, JPEG compression, and motion blur. We
then use our framework to achieve state-of-the-art ImageNet FID, and we show
significant improvements in both image quality and diversity for text-to-image
generative modeling. The core insight is that noise dampens the initial skew
between the desired high-quality distribution and the mixed distribution we
actually observe. We provide rigorous theoretical justification for our
approach by analyzing the trade-off between learning from biased data versus
limited unbiased data across diffusion times.