Wuerstchen: Pretrenamiento eficiente de modelos de texto a imagen
Wuerstchen: Efficient Pretraining of Text-to-Image Models
June 1, 2023
Autores: Pablo Pernias, Dominic Rampas, Marc Aubreville
cs.AI
Resumen
Presentamos Wuerstchen, una técnica novedosa para la síntesis de texto a imagen que combina un rendimiento competitivo con una eficiencia de costos sin precedentes y una facilidad de entrenamiento en hardware limitado. Basándonos en avances recientes en aprendizaje automático, nuestro enfoque, que utiliza estrategias de difusión latente con altas tasas de compresión de imágenes latentes, reduce significativamente la carga computacional típicamente asociada con los modelos de última generación, preservando, e incluso mejorando, la calidad de las imágenes generadas. Wuerstchen logra mejoras notables en la velocidad durante la inferencia, haciendo que las aplicaciones en tiempo real sean más viables. Una de las ventajas clave de nuestro método radica en sus modestos requisitos de entrenamiento de solo 9,200 horas de GPU, reduciendo drásticamente los costos habituales sin comprometer el rendimiento final. En una comparación con los modelos de última generación, encontramos que este enfoque ofrece una fuerte competitividad. Este artículo abre la puerta a una nueva línea de investigación que prioriza tanto el rendimiento como la accesibilidad computacional, democratizando así el uso de tecnologías de IA sofisticadas. A través de Wuerstchen, demostramos un avance convincente en el ámbito de la síntesis de texto a imagen, ofreciendo un camino innovador para explorar en futuras investigaciones.
English
We introduce Wuerstchen, a novel technique for text-to-image synthesis that
unites competitive performance with unprecedented cost-effectiveness and ease
of training on constrained hardware. Building on recent advancements in machine
learning, our approach, which utilizes latent diffusion strategies at strong
latent image compression rates, significantly reduces the computational burden,
typically associated with state-of-the-art models, while preserving, if not
enhancing, the quality of generated images. Wuerstchen achieves notable speed
improvements at inference time, thereby rendering real-time applications more
viable. One of the key advantages of our method lies in its modest training
requirements of only 9,200 GPU hours, slashing the usual costs significantly
without compromising the end performance. In a comparison against the
state-of-the-art, we found the approach to yield strong competitiveness. This
paper opens the door to a new line of research that prioritizes both
performance and computational accessibility, hence democratizing the use of
sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling
stride forward in the realm of text-to-image synthesis, offering an innovative
path to explore in future research.