ChatPaper.aiChatPaper

Sobre la Escalabilidad de la Generación de Imágenes a partir de Texto Basada en Difusión

On the Scalability of Diffusion-based Text-to-Image Generation

April 3, 2024
Autores: Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto
cs.AI

Resumen

El aumento en el tamaño de los modelos y los datos ha sido bastante exitoso para la evolución de los LLM (Modelos de Lenguaje de Gran Escala). Sin embargo, la ley de escalamiento para los modelos de texto a imagen (T2I) basados en difusión no ha sido completamente explorada. Además, no está claro cómo escalar eficientemente el modelo para obtener un mejor rendimiento a un costo reducido. Los diferentes ajustes de entrenamiento y el elevado costo del mismo hacen que una comparación justa entre modelos sea extremadamente difícil. En este trabajo, estudiamos empíricamente las propiedades de escalamiento de los modelos T2I basados en difusión mediante la realización de extensas y rigurosas ablaciones sobre el escalamiento tanto de los backbones de eliminación de ruido como del conjunto de entrenamiento, incluyendo el entrenamiento de variantes escaladas de UNet y Transformer que van desde 0.4B hasta 4B de parámetros en conjuntos de datos de hasta 600M de imágenes. Para el escalamiento del modelo, encontramos que la ubicación y la cantidad de atención cruzada distinguen el rendimiento de los diseños existentes de UNet. Además, aumentar los bloques de transformadores es más eficiente en términos de parámetros para mejorar la alineación texto-imagen que aumentar el número de canales. Luego, identificamos una variante eficiente de UNet, que es un 45% más pequeña y un 28% más rápida que la UNet de SDXL. En cuanto al escalamiento de datos, demostramos que la calidad y la diversidad del conjunto de entrenamiento importan más que simplemente el tamaño del conjunto de datos. Aumentar la densidad y diversidad de los textos descriptivos mejora el rendimiento de la alineación texto-imagen y la eficiencia del aprendizaje. Finalmente, proporcionamos funciones de escalamiento para predecir el rendimiento de la alineación texto-imagen como funciones de la escala del tamaño del modelo, el cómputo y el tamaño del conjunto de datos.
English
Scaling up model and data size has been quite successful for the evolution of LLMs. However, the scaling law for the diffusion based text-to-image (T2I) models is not fully explored. It is also unclear how to efficiently scale the model for better performance at reduced cost. The different training settings and expensive training cost make a fair model comparison extremely difficult. In this work, we empirically study the scaling properties of diffusion based T2I models by performing extensive and rigours ablations on scaling both denoising backbones and training set, including training scaled UNet and Transformer variants ranging from 0.4B to 4B parameters on datasets upto 600M images. For model scaling, we find the location and amount of cross attention distinguishes the performance of existing UNet designs. And increasing the transformer blocks is more parameter-efficient for improving text-image alignment than increasing channel numbers. We then identify an efficient UNet variant, which is 45% smaller and 28% faster than SDXL's UNet. On the data scaling side, we show the quality and diversity of the training set matters more than simply dataset size. Increasing caption density and diversity improves text-image alignment performance and the learning efficiency. Finally, we provide scaling functions to predict the text-image alignment performance as functions of the scale of model size, compute and dataset size.

Summary

AI-Generated Summary

PDF190November 26, 2024