La crescita avida abilita modelli di diffusione basati su pixel ad alta risoluzione.
Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models
May 27, 2024
Autori: Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang
cs.AI
Abstract
Affrontiamo il problema di lunga data di come apprendere modelli di diffusione di immagini basati su pixel su larga scala, introducendo un metodo di crescita avida notevolmente semplice per l'addestramento stabile di modelli su larga scala e ad alta risoluzione, senza la necessità di componenti a cascata per la super-risoluzione. L'intuizione chiave deriva da un'attenta pre-addestramento dei componenti principali, ovvero quelli responsabili dell'allineamento testo-immagine {\it vs.} il rendering ad alta risoluzione. Dimostriamo innanzitutto i vantaggi di scalare una {\it Shallow UNet}, priva di encoder(decoder) di down(up)-sampling. La scalabilità dei suoi strati profondi centrali migliora l'allineamento, la struttura degli oggetti e la composizione. Basandoci su questo modello centrale, proponiamo un algoritmo avido che espande l'architettura in modelli end-to-end ad alta risoluzione, preservando l'integrità della rappresentazione pre-addestrata, stabilizzando l'addestramento e riducendo la necessità di grandi dataset ad alta risoluzione. Ciò consente un modello a singolo stadio in grado di generare immagini ad alta risoluzione senza la necessità di una cascata di super-risoluzione. I nostri risultati chiave si basano su dataset pubblici e dimostrano che siamo in grado di addestrare modelli non a cascata fino a 8 miliardi di parametri senza ulteriori schemi di regolarizzazione. Vermeer, il nostro modello completo addestrato con dataset interni per produrre immagini 1024x1024, senza cascate, è preferito dal 44,0% contro il 21,4% dei valutatori umani rispetto a SDXL.
English
We address the long-standing problem of how to learn effective pixel-based
image diffusion models at scale, introducing a remarkably simple greedy growing
method for stable training of large-scale, high-resolution models. without the
needs for cascaded super-resolution components. The key insight stems from
careful pre-training of core components, namely, those responsible for
text-to-image alignment {\it vs.} high-resolution rendering. We first
demonstrate the benefits of scaling a {\it Shallow UNet}, with no
down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to
improve alignment, object structure, and composition. Building on this core
model, we propose a greedy algorithm that grows the architecture into
high-resolution end-to-end models, while preserving the integrity of the
pre-trained representation, stabilizing training, and reducing the need for
large high-resolution datasets. This enables a single stage model capable of
generating high-resolution images without the need of a super-resolution
cascade. Our key results rely on public datasets and show that we are able to
train non-cascaded models up to 8B parameters with no further regularization
schemes. Vermeer, our full pipeline model trained with internal datasets to
produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4%
human evaluators over SDXL.