Sulla Scalabilità della Generazione di Immagini da Testo Basata su Diffusione

Abstract

L'aumento delle dimensioni del modello e dei dati si è rivelato molto efficace per l'evoluzione dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, la legge di scala per i modelli di testo-immagine (T2I) basati su diffusione non è stata completamente esplorata. Inoltre, non è chiaro come scalare in modo efficiente il modello per ottenere prestazioni migliori a costi ridotti. Le diverse impostazioni di addestramento e gli elevati costi di formazione rendono estremamente difficile un confronto equo tra i modelli. In questo lavoro, studiamo empiricamente le proprietà di scala dei modelli T2I basati su diffusione eseguendo ampie e rigorose ablazioni sulla scala sia dei backbone di denoising che del set di addestramento, includendo l'addestramento di varianti scalate di UNet e Transformer con parametri che vanno da 0,4B a 4B su dataset fino a 600M di immagini. Per la scalabilità del modello, scopriamo che la posizione e la quantità di cross-attention distinguono le prestazioni dei design esistenti di UNet. Inoltre, aumentare i blocchi del transformer è più efficiente in termini di parametri per migliorare l'allineamento testo-immagine rispetto all'aumento del numero di canali. Identifichiamo quindi una variante efficiente di UNet, che è il 45% più piccola e il 28% più veloce rispetto all'UNet di SDXL. Per quanto riguarda la scalabilità dei dati, dimostriamo che la qualità e la diversità del set di addestramento contano più della semplice dimensione del dataset. Aumentare la densità e la diversità delle didascalie migliora le prestazioni di allineamento testo-immagine e l'efficienza di apprendimento. Infine, forniamo funzioni di scala per prevedere le prestazioni di allineamento testo-immagine in funzione della scala delle dimensioni del modello, del calcolo e della dimensione del dataset.

English

Scaling up model and data size has been quite successful for the evolution of LLMs. However, the scaling law for the diffusion based text-to-image (T2I) models is not fully explored. It is also unclear how to efficiently scale the model for better performance at reduced cost. The different training settings and expensive training cost make a fair model comparison extremely difficult. In this work, we empirically study the scaling properties of diffusion based T2I models by performing extensive and rigours ablations on scaling both denoising backbones and training set, including training scaled UNet and Transformer variants ranging from 0.4B to 4B parameters on datasets upto 600M images. For model scaling, we find the location and amount of cross attention distinguishes the performance of existing UNet designs. And increasing the transformer blocks is more parameter-efficient for improving text-image alignment than increasing channel numbers. We then identify an efficient UNet variant, which is 45% smaller and 28% faster than SDXL's UNet. On the data scaling side, we show the quality and diversity of the training set matters more than simply dataset size. Increasing caption density and diversity improves text-image alignment performance and the learning efficiency. Finally, we provide scaling functions to predict the text-image alignment performance as functions of the scale of model size, compute and dataset size.

Sulla Scalabilità della Generazione di Immagini da Testo Basata su Diffusione

On the Scalability of Diffusion-based Text-to-Image Generation

Abstract

Support