Modelos de Difusión Matryoshka
Matryoshka Diffusion Models
October 23, 2023
Autores: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Josh Susskind, Navdeep Jaitly
cs.AI
Resumen
Los modelos de difusión son el enfoque de facto para generar imágenes y videos de alta calidad, pero el aprendizaje de modelos de alta dimensión sigue siendo una tarea formidable debido a los desafíos computacionales y de optimización. Los métodos existentes suelen recurrir al entrenamiento de modelos en cascada en el espacio de píxeles o al uso de un espacio latente reducido de un auto-codificador entrenado por separado. En este artículo, presentamos Matryoshka Diffusion Models (MDM), un marco de trabajo integral para la síntesis de imágenes y videos de alta resolución. Proponemos un proceso de difusión que elimina el ruido de las entradas en múltiples resoluciones de manera conjunta y utiliza una arquitectura NestedUNet, donde las características y parámetros para entradas a pequeña escala están anidados dentro de los de escalas grandes. Además, MDM permite un programa de entrenamiento progresivo desde resoluciones bajas hasta altas, lo que conduce a mejoras significativas en la optimización para la generación de alta resolución. Demostramos la efectividad de nuestro enfoque en varios puntos de referencia, incluyendo la generación de imágenes condicionadas por clase, la generación de imágenes de alta resolución a partir de texto y aplicaciones de texto a video. Notablemente, podemos entrenar un único modelo en el espacio de píxeles a resoluciones de hasta 1024x1024 píxeles, demostrando una fuerte generalización en cero-shot utilizando el conjunto de datos CC12M, que contiene solo 12 millones de imágenes.
English
Diffusion models are the de facto approach for generating high-quality images
and videos, but learning high-dimensional models remains a formidable task due
to computational and optimization challenges. Existing methods often resort to
training cascaded models in pixel space or using a downsampled latent space of
a separately trained auto-encoder. In this paper, we introduce Matryoshka
Diffusion Models(MDM), an end-to-end framework for high-resolution image and
video synthesis. We propose a diffusion process that denoises inputs at
multiple resolutions jointly and uses a NestedUNet architecture where features
and parameters for small-scale inputs are nested within those of large scales.
In addition, MDM enables a progressive training schedule from lower to higher
resolutions, which leads to significant improvements in optimization for
high-resolution generation. We demonstrate the effectiveness of our approach on
various benchmarks, including class-conditioned image generation,
high-resolution text-to-image, and text-to-video applications. Remarkably, we
can train a single pixel-space model at resolutions of up to 1024x1024 pixels,
demonstrating strong zero-shot generalization using the CC12M dataset, which
contains only 12 million images.