Sintesi Scalabile di Immagini ad Alta Risoluzione nello Spazio dei Pixel con Trasformatori a Diffusione a Clessidra

Abstract

Presentiamo l'Hourglass Diffusion Transformer (HDiT), un modello generativo di immagini che mostra una scalabilità lineare rispetto al numero di pixel, supportando l'addestramento ad alta risoluzione (ad esempio 1024x1024) direttamente nello spazio dei pixel. Basandosi sull'architettura Transformer, nota per scalare fino a miliardi di parametri, HDiT colma il divario tra l'efficienza delle U-Net convoluzionali e la scalabilità dei Transformer. HDiT si addestra con successo senza ricorrere a tecniche tipiche di addestramento ad alta risoluzione come architetture multiscala, autoencoder latenti o auto-condizionamento. Dimostriamo che HDiT compete con i modelli esistenti su ImageNet 256^2 e stabilisce un nuovo stato dell'arte per i modelli di diffusione su FFHQ-1024^2.

English

We present the Hourglass Diffusion Transformer (HDiT), an image generative model that exhibits linear scaling with pixel count, supporting training at high-resolution (e.g. 1024 times 1024) directly in pixel-space. Building on the Transformer architecture, which is known to scale to billions of parameters, it bridges the gap between the efficiency of convolutional U-Nets and the scalability of Transformers. HDiT trains successfully without typical high-resolution training techniques such as multiscale architectures, latent autoencoders or self-conditioning. We demonstrate that HDiT performs competitively with existing models on ImageNet 256^2, and sets a new state-of-the-art for diffusion models on FFHQ-1024^2.

Sintesi Scalabile di Immagini ad Alta Risoluzione nello Spazio dei Pixel con Trasformatori a Diffusione a Clessidra

Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers

Abstract

Support