Ambient Diffusion Omni: Entrenando buenos modelos con datos deficientes

Resumen

Demostramos cómo utilizar imágenes de baja calidad, sintéticas y fuera de distribución para mejorar la calidad de un modelo de difusión. Normalmente, los modelos de difusión se entrenan con conjuntos de datos curados que provienen de fuentes altamente filtradas, como la web y otros recursos. Mostramos que existe un valor inmenso en las imágenes de menor calidad que a menudo se descartan. Presentamos Ambient Diffusion Omni, un marco simple y fundamentado para entrenar modelos de difusión que pueden extraer señales de todas las imágenes disponibles durante el entrenamiento. Nuestro marco aprovecha dos propiedades de las imágenes naturales: la disminución de la potencia espectral según una ley de potencias y la localidad. Primero validamos nuestro marco entrenando con éxito modelos de difusión utilizando imágenes sintéticamente corrompidas por desenfoque gaussiano, compresión JPEG y desenfoque de movimiento. Luego, empleamos nuestro marco para alcanzar un estado del arte en FID en ImageNet, y mostramos mejoras significativas tanto en la calidad como en la diversidad de las imágenes en la generación de imágenes a partir de texto. La idea central es que el ruido atenúa el sesgo inicial entre la distribución de alta calidad deseada y la distribución mixta que realmente observamos. Proporcionamos una justificación teórica rigurosa de nuestro enfoque analizando el equilibrio entre aprender de datos sesgados versus datos no sesgados pero limitados a lo largo de los tiempos de difusión.

English

We show how to use low-quality, synthetic, and out-of-distribution images to improve the quality of a diffusion model. Typically, diffusion models are trained on curated datasets that emerge from highly filtered data pools from the Web and other sources. We show that there is immense value in the lower-quality images that are often discarded. We present Ambient Diffusion Omni, a simple, principled framework to train diffusion models that can extract signal from all available images during training. Our framework exploits two properties of natural images -- spectral power law decay and locality. We first validate our framework by successfully training diffusion models with images synthetically corrupted by Gaussian blur, JPEG compression, and motion blur. We then use our framework to achieve state-of-the-art ImageNet FID, and we show significant improvements in both image quality and diversity for text-to-image generative modeling. The core insight is that noise dampens the initial skew between the desired high-quality distribution and the mixed distribution we actually observe. We provide rigorous theoretical justification for our approach by analyzing the trade-off between learning from biased data versus limited unbiased data across diffusion times.

Ambient Diffusion Omni: Entrenando buenos modelos con datos deficientes

Ambient Diffusion Omni: Training Good Models with Bad Data

Resumen

Support