La croissance gourmande permet des modèles de diffusion basés sur les pixels à haute résolution.
Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models
May 27, 2024
Auteurs: Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang
cs.AI
Résumé
Nous abordons le problème de longue date de l'apprentissage de modèles de diffusion d'images basés sur les pixels à grande échelle, en introduisant une méthode de croissance gloutonne remarquablement simple pour l'entraînement stable de modèles à grande échelle et haute résolution, sans nécessiter de composants en cascade de super-résolution. L'idée clé découle d'un pré-entraînement minutieux des composants essentiels, à savoir ceux responsables de l'alignement texte-image {\it vs.} le rendu haute résolution. Nous démontrons d'abord les avantages de la mise à l'échelle d'un {\it Shallow UNet}, sans encodeur (décodeur) de sous( sur)-échantillonnage. La mise à l'échelle de ses couches profondes améliore l'alignement, la structure des objets et la composition. En nous appuyant sur ce modèle de base, nous proposons un algorithme glouton qui développe l'architecture en modèles end-to-end haute résolution, tout en préservant l'intégrité de la représentation pré-entraînée, stabilisant l'entraînement et réduisant le besoin de grands ensembles de données haute résolution. Cela permet un modèle à une seule étape capable de générer des images haute résolution sans nécessiter de cascade de super-résolution. Nos principaux résultats s'appuient sur des ensembles de données publics et montrent que nous sommes capables d'entraîner des modèles non en cascade jusqu'à 8 milliards de paramètres sans schémas de régularisation supplémentaires. Vermeer, notre modèle de pipeline complet entraîné avec des ensembles de données internes pour produire des images 1024x1024, sans cascades, est préféré par 44,0% contre 21,4% des évaluateurs humains par rapport à SDXL.
English
We address the long-standing problem of how to learn effective pixel-based
image diffusion models at scale, introducing a remarkably simple greedy growing
method for stable training of large-scale, high-resolution models. without the
needs for cascaded super-resolution components. The key insight stems from
careful pre-training of core components, namely, those responsible for
text-to-image alignment {\it vs.} high-resolution rendering. We first
demonstrate the benefits of scaling a {\it Shallow UNet}, with no
down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to
improve alignment, object structure, and composition. Building on this core
model, we propose a greedy algorithm that grows the architecture into
high-resolution end-to-end models, while preserving the integrity of the
pre-trained representation, stabilizing training, and reducing the need for
large high-resolution datasets. This enables a single stage model capable of
generating high-resolution images without the need of a super-resolution
cascade. Our key results rely on public datasets and show that we are able to
train non-cascaded models up to 8B parameters with no further regularization
schemes. Vermeer, our full pipeline model trained with internal datasets to
produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4%
human evaluators over SDXL.Summary
AI-Generated Summary