Sulla Scalabilità della Generazione di Immagini da Testo Basata su Diffusione
On the Scalability of Diffusion-based Text-to-Image Generation
April 3, 2024
Autori: Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto
cs.AI
Abstract
L'aumento delle dimensioni del modello e dei dati si è rivelato molto efficace per l'evoluzione dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, la legge di scala per i modelli di testo-immagine (T2I) basati su diffusione non è stata completamente esplorata. Inoltre, non è chiaro come scalare in modo efficiente il modello per ottenere prestazioni migliori a costi ridotti. Le diverse impostazioni di addestramento e gli elevati costi di formazione rendono estremamente difficile un confronto equo tra i modelli. In questo lavoro, studiamo empiricamente le proprietà di scala dei modelli T2I basati su diffusione eseguendo ampie e rigorose ablazioni sulla scala sia dei backbone di denoising che del set di addestramento, includendo l'addestramento di varianti scalate di UNet e Transformer con parametri che vanno da 0,4B a 4B su dataset fino a 600M di immagini. Per la scalabilità del modello, scopriamo che la posizione e la quantità di cross-attention distinguono le prestazioni dei design esistenti di UNet. Inoltre, aumentare i blocchi del transformer è più efficiente in termini di parametri per migliorare l'allineamento testo-immagine rispetto all'aumento del numero di canali. Identifichiamo quindi una variante efficiente di UNet, che è il 45% più piccola e il 28% più veloce rispetto all'UNet di SDXL. Per quanto riguarda la scalabilità dei dati, dimostriamo che la qualità e la diversità del set di addestramento contano più della semplice dimensione del dataset. Aumentare la densità e la diversità delle didascalie migliora le prestazioni di allineamento testo-immagine e l'efficienza di apprendimento. Infine, forniamo funzioni di scala per prevedere le prestazioni di allineamento testo-immagine in funzione della scala delle dimensioni del modello, del calcolo e della dimensione del dataset.
English
Scaling up model and data size has been quite successful for the evolution of
LLMs. However, the scaling law for the diffusion based text-to-image (T2I)
models is not fully explored. It is also unclear how to efficiently scale the
model for better performance at reduced cost. The different training settings
and expensive training cost make a fair model comparison extremely difficult.
In this work, we empirically study the scaling properties of diffusion based
T2I models by performing extensive and rigours ablations on scaling both
denoising backbones and training set, including training scaled UNet and
Transformer variants ranging from 0.4B to 4B parameters on datasets upto 600M
images. For model scaling, we find the location and amount of cross attention
distinguishes the performance of existing UNet designs. And increasing the
transformer blocks is more parameter-efficient for improving text-image
alignment than increasing channel numbers. We then identify an efficient UNet
variant, which is 45% smaller and 28% faster than SDXL's UNet. On the data
scaling side, we show the quality and diversity of the training set matters
more than simply dataset size. Increasing caption density and diversity
improves text-image alignment performance and the learning efficiency. Finally,
we provide scaling functions to predict the text-image alignment performance as
functions of the scale of model size, compute and dataset size.