ChatPaper.aiChatPaper

Greedy Growing maakt hoogwaardige pixelgebaseerde diffusiemodellen mogelijk.

Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

May 27, 2024
Auteurs: Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang
cs.AI

Samenvatting

We pakken het lang bestaande probleem aan van hoe effectieve pixelgebaseerde beelddiffusiemodellen op grote schaal kunnen worden geleerd, waarbij we een opmerkelijk eenvoudige, gretige groeimethode introduceren voor stabiele training van grootschalige, hoge-resolutiemodellen, zonder de noodzaak van gecascadeerde superresolutiecomponenten. Het belangrijkste inzicht komt voort uit zorgvuldige voorafgaande training van kerncomponenten, namelijk die verantwoordelijk zijn voor tekst-naar-beeld-uitlijning {\it versus} hoge-resolutieweergave. We demonstreren eerst de voordelen van het schalen van een {\it Shallow UNet}, zonder down(up)-sampling enc(dec)oder. Het schalen van de diepe kernlagen blijkt de uitlijning, objectstructuur en compositie te verbeteren. Op basis van dit kernmodel stellen we een gretig algoritme voor dat de architectuur uitbreidt naar end-to-end modellen met hoge resolutie, terwijl de integriteit van de vooraf getrainde representatie behouden blijft, de training wordt gestabiliseerd en de behoefte aan grote datasets met hoge resolutie wordt verminderd. Hierdoor ontstaat een enkelstapsmodel dat in staat is om beelden met hoge resolutie te genereren zonder de noodzaak van een superresolutiecascade. Onze belangrijkste resultaten zijn gebaseerd op openbare datasets en laten zien dat we niet-gecascadeerde modellen kunnen trainen tot 8B parameters zonder verdere regularisatieschema's. Vermeer, ons volledige pijplijnmodel getraind met interne datasets om 1024x1024 beelden te produceren, zonder cascades, wordt door 44,0% versus 21,4% van de menselijke beoordelaars verkozen boven SDXL.
English
We address the long-standing problem of how to learn effective pixel-based image diffusion models at scale, introducing a remarkably simple greedy growing method for stable training of large-scale, high-resolution models. without the needs for cascaded super-resolution components. The key insight stems from careful pre-training of core components, namely, those responsible for text-to-image alignment {\it vs.} high-resolution rendering. We first demonstrate the benefits of scaling a {\it Shallow UNet}, with no down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to improve alignment, object structure, and composition. Building on this core model, we propose a greedy algorithm that grows the architecture into high-resolution end-to-end models, while preserving the integrity of the pre-trained representation, stabilizing training, and reducing the need for large high-resolution datasets. This enables a single stage model capable of generating high-resolution images without the need of a super-resolution cascade. Our key results rely on public datasets and show that we are able to train non-cascaded models up to 8B parameters with no further regularization schemes. Vermeer, our full pipeline model trained with internal datasets to produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4% human evaluators over SDXL.
PDF80December 12, 2024