El Crecimiento Codicioso Permite Modelos de Difusión Basados en Píxeles de Alta Resolución
Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models
May 27, 2024
Autores: Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang
cs.AI
Resumen
Abordamos el problema de larga data de cómo aprender modelos de difusión de imágenes basados en píxeles a gran escala, introduciendo un método notablemente simple de crecimiento codicioso para el entrenamiento estable de modelos de alta resolución a gran escala, sin la necesidad de componentes en cascada de superresolución. La clave radica en el preentrenamiento cuidadoso de los componentes principales, específicamente aquellos responsables de la alineación texto-imagen {\it vs.} el renderizado de alta resolución. Primero demostramos los beneficios de escalar una {\it UNet superficial}, sin codificador(decodificador) de sub(muestreo). Escalar sus capas profundas centrales mejora la alineación, la estructura de objetos y la composición. Basándonos en este modelo central, proponemos un algoritmo codicioso que expande la arquitectura hacia modelos de alta resolución de extremo a extremo, preservando la integridad de la representación preentrenada, estabilizando el entrenamiento y reduciendo la necesidad de grandes conjuntos de datos de alta resolución. Esto permite un modelo de una sola etapa capaz de generar imágenes de alta resolución sin necesidad de una cascada de superresolución. Nuestros resultados clave se basan en conjuntos de datos públicos y muestran que podemos entrenar modelos no en cascada de hasta 8B parámetros sin esquemas adicionales de regularización. Vermeer, nuestro modelo de pipeline completo entrenado con conjuntos de datos internos para producir imágenes de 1024x1024, sin cascadas, es preferido por el 44.0% frente al 21.4% de los evaluadores humanos en comparación con SDXL.
English
We address the long-standing problem of how to learn effective pixel-based
image diffusion models at scale, introducing a remarkably simple greedy growing
method for stable training of large-scale, high-resolution models. without the
needs for cascaded super-resolution components. The key insight stems from
careful pre-training of core components, namely, those responsible for
text-to-image alignment {\it vs.} high-resolution rendering. We first
demonstrate the benefits of scaling a {\it Shallow UNet}, with no
down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to
improve alignment, object structure, and composition. Building on this core
model, we propose a greedy algorithm that grows the architecture into
high-resolution end-to-end models, while preserving the integrity of the
pre-trained representation, stabilizing training, and reducing the need for
large high-resolution datasets. This enables a single stage model capable of
generating high-resolution images without the need of a super-resolution
cascade. Our key results rely on public datasets and show that we are able to
train non-cascaded models up to 8B parameters with no further regularization
schemes. Vermeer, our full pipeline model trained with internal datasets to
produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4%
human evaluators over SDXL.Summary
AI-Generated Summary