Síntesis escalable de imágenes en espacio de píxeles de alta resolución con Transformadores de Difusión en forma de Reloj de Arena
Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers
January 21, 2024
Autores: Katherine Crowson, Stefan Andreas Baumann, Alex Birch, Tanishq Mathew Abraham, Daniel Z. Kaplan, Enrico Shippole
cs.AI
Resumen
Presentamos el Transformer de Difusión Reloj de Arena (HDiT), un modelo generativo de imágenes que exhibe un escalado lineal con el número de píxeles, permitiendo el entrenamiento en alta resolución (por ejemplo, 1024 × 1024) directamente en el espacio de píxeles. Basado en la arquitectura Transformer, conocida por escalar a miles de millones de parámetros, este modelo cierra la brecha entre la eficiencia de las U-Nets convolucionales y la escalabilidad de los Transformers. HDiT se entrena con éxito sin técnicas típicas de entrenamiento en alta resolución, como arquitecturas multiescala, autoencodificadores latentes o auto-condicionamiento. Demostramos que HDiT compite con los modelos existentes en ImageNet 256^2 y establece un nuevo estado del arte para los modelos de difusión en FFHQ-1024^2.
English
We present the Hourglass Diffusion Transformer (HDiT), an image generative
model that exhibits linear scaling with pixel count, supporting training at
high-resolution (e.g. 1024 times 1024) directly in pixel-space. Building on
the Transformer architecture, which is known to scale to billions of
parameters, it bridges the gap between the efficiency of convolutional U-Nets
and the scalability of Transformers. HDiT trains successfully without typical
high-resolution training techniques such as multiscale architectures, latent
autoencoders or self-conditioning. We demonstrate that HDiT performs
competitively with existing models on ImageNet 256^2, and sets a new
state-of-the-art for diffusion models on FFHQ-1024^2.