ChatPaper.aiChatPaper

O Crescimento Ganancioso Possibilita Modelos de Difusão Baseados em Pixels de Alta Resolução

Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

May 27, 2024
Autores: Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang
cs.AI

Resumo

Abordamos o problema de longa data de como aprender modelos de difusão de imagens baseados em pixels em escala, introduzindo um método notavelmente simples de crescimento ganancioso para o treinamento estável de modelos em grande escala e alta resolução, sem a necessidade de componentes em cascata de super-resolução. A chave para isso reside no pré-treinamento cuidadoso dos componentes principais, ou seja, aqueles responsáveis pelo alinhamento texto-imagem {\it vs.} renderização de alta resolução. Primeiro, demonstramos os benefícios de escalar uma {\it Shallow UNet}, sem codificador(decodificador) de redução(aumento) de amostragem. A escalabilidade de suas camadas profundas mostrou melhorar o alinhamento, a estrutura dos objetos e a composição. Com base nesse modelo central, propomos um algoritmo ganancioso que expande a arquitetura para modelos de alta resolução de ponta a ponta, preservando a integridade da representação pré-treinada, estabilizando o treinamento e reduzindo a necessidade de grandes conjuntos de dados de alta resolução. Isso permite um modelo de estágio único capaz de gerar imagens de alta resolução sem a necessidade de uma cascata de super-resolução. Nossos principais resultados dependem de conjuntos de dados públicos e mostram que somos capazes de treinar modelos não em cascata com até 8 bilhões de parâmetros, sem esquemas adicionais de regularização. Vermeer, nosso modelo de pipeline completo treinado com conjuntos de dados internos para produzir imagens de 1024x1024, sem cascatas, é preferido por 44,0% contra 21,4% dos avaliadores humanos em relação ao SDXL.
English
We address the long-standing problem of how to learn effective pixel-based image diffusion models at scale, introducing a remarkably simple greedy growing method for stable training of large-scale, high-resolution models. without the needs for cascaded super-resolution components. The key insight stems from careful pre-training of core components, namely, those responsible for text-to-image alignment {\it vs.} high-resolution rendering. We first demonstrate the benefits of scaling a {\it Shallow UNet}, with no down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to improve alignment, object structure, and composition. Building on this core model, we propose a greedy algorithm that grows the architecture into high-resolution end-to-end models, while preserving the integrity of the pre-trained representation, stabilizing training, and reducing the need for large high-resolution datasets. This enables a single stage model capable of generating high-resolution images without the need of a super-resolution cascade. Our key results rely on public datasets and show that we are able to train non-cascaded models up to 8B parameters with no further regularization schemes. Vermeer, our full pipeline model trained with internal datasets to produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4% human evaluators over SDXL.
PDF80December 12, 2024