Wuerstchen: Pretrenamiento eficiente de modelos de texto a imagen

Resumen

Presentamos Wuerstchen, una técnica novedosa para la síntesis de texto a imagen que combina un rendimiento competitivo con una eficiencia de costos sin precedentes y una facilidad de entrenamiento en hardware limitado. Basándonos en avances recientes en aprendizaje automático, nuestro enfoque, que utiliza estrategias de difusión latente con altas tasas de compresión de imágenes latentes, reduce significativamente la carga computacional típicamente asociada con los modelos de última generación, preservando, e incluso mejorando, la calidad de las imágenes generadas. Wuerstchen logra mejoras notables en la velocidad durante la inferencia, haciendo que las aplicaciones en tiempo real sean más viables. Una de las ventajas clave de nuestro método radica en sus modestos requisitos de entrenamiento de solo 9,200 horas de GPU, reduciendo drásticamente los costos habituales sin comprometer el rendimiento final. En una comparación con los modelos de última generación, encontramos que este enfoque ofrece una fuerte competitividad. Este artículo abre la puerta a una nueva línea de investigación que prioriza tanto el rendimiento como la accesibilidad computacional, democratizando así el uso de tecnologías de IA sofisticadas. A través de Wuerstchen, demostramos un avance convincente en el ámbito de la síntesis de texto a imagen, ofreciendo un camino innovador para explorar en futuras investigaciones.

English

We introduce Wuerstchen, a novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardware. Building on recent advancements in machine learning, our approach, which utilizes latent diffusion strategies at strong latent image compression rates, significantly reduces the computational burden, typically associated with state-of-the-art models, while preserving, if not enhancing, the quality of generated images. Wuerstchen achieves notable speed improvements at inference time, thereby rendering real-time applications more viable. One of the key advantages of our method lies in its modest training requirements of only 9,200 GPU hours, slashing the usual costs significantly without compromising the end performance. In a comparison against the state-of-the-art, we found the approach to yield strong competitiveness. This paper opens the door to a new line of research that prioritizes both performance and computational accessibility, hence democratizing the use of sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling stride forward in the realm of text-to-image synthesis, offering an innovative path to explore in future research.

Wuerstchen: Pretrenamiento eficiente de modelos de texto a imagen

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Resumen

Support