Sintesi Scalabile di Immagini ad Alta Risoluzione nello Spazio dei Pixel con Trasformatori a Diffusione a Clessidra
Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers
January 21, 2024
Autori: Katherine Crowson, Stefan Andreas Baumann, Alex Birch, Tanishq Mathew Abraham, Daniel Z. Kaplan, Enrico Shippole
cs.AI
Abstract
Presentiamo l'Hourglass Diffusion Transformer (HDiT), un modello generativo di immagini che mostra una scalabilità lineare rispetto al numero di pixel, supportando l'addestramento ad alta risoluzione (ad esempio 1024x1024) direttamente nello spazio dei pixel. Basandosi sull'architettura Transformer, nota per scalare fino a miliardi di parametri, HDiT colma il divario tra l'efficienza delle U-Net convoluzionali e la scalabilità dei Transformer. HDiT si addestra con successo senza ricorrere a tecniche tipiche di addestramento ad alta risoluzione come architetture multiscala, autoencoder latenti o auto-condizionamento. Dimostriamo che HDiT compete con i modelli esistenti su ImageNet 256^2 e stabilisce un nuovo stato dell'arte per i modelli di diffusione su FFHQ-1024^2.
English
We present the Hourglass Diffusion Transformer (HDiT), an image generative
model that exhibits linear scaling with pixel count, supporting training at
high-resolution (e.g. 1024 times 1024) directly in pixel-space. Building on
the Transformer architecture, which is known to scale to billions of
parameters, it bridges the gap between the efficiency of convolutional U-Nets
and the scalability of Transformers. HDiT trains successfully without typical
high-resolution training techniques such as multiscale architectures, latent
autoencoders or self-conditioning. We demonstrate that HDiT performs
competitively with existing models on ImageNet 256^2, and sets a new
state-of-the-art for diffusion models on FFHQ-1024^2.