Wuerstchen : Prétraitement efficace des modèles de génération d'images à partir de texte

Résumé

Nous présentons Wuerstchen, une nouvelle technique de synthèse d'images à partir de texte qui allie des performances compétitives à une efficacité économique sans précédent et une facilité d'entraînement sur du matériel limité. S'appuyant sur les avancées récentes en apprentissage automatique, notre approche, qui utilise des stratégies de diffusion latente avec des taux de compression d'image latente élevés, réduit considérablement la charge de calcul, généralement associée aux modèles de pointe, tout en préservant, voire en améliorant, la qualité des images générées. Wuerstchen réalise des améliorations notables en termes de vitesse lors de l'inférence, rendant ainsi les applications en temps réel plus viables. L'un des principaux avantages de notre méthode réside dans ses modestes exigences d'entraînement, nécessitant seulement 9 200 heures de GPU, ce qui réduit considérablement les coûts habituels sans compromettre les performances finales. Dans une comparaison avec l'état de l'art, nous avons constaté que cette approche offre une forte compétitivité. Cet article ouvre la voie à une nouvelle ligne de recherche qui privilégie à la fois les performances et l'accessibilité computationnelle, démocratisant ainsi l'utilisation des technologies d'IA sophistiquées. À travers Wuerstchen, nous démontrons un pas en avant convaincant dans le domaine de la synthèse d'images à partir de texte, offrant une voie innovante à explorer dans les recherches futures.

English

We introduce Wuerstchen, a novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardware. Building on recent advancements in machine learning, our approach, which utilizes latent diffusion strategies at strong latent image compression rates, significantly reduces the computational burden, typically associated with state-of-the-art models, while preserving, if not enhancing, the quality of generated images. Wuerstchen achieves notable speed improvements at inference time, thereby rendering real-time applications more viable. One of the key advantages of our method lies in its modest training requirements of only 9,200 GPU hours, slashing the usual costs significantly without compromising the end performance. In a comparison against the state-of-the-art, we found the approach to yield strong competitiveness. This paper opens the door to a new line of research that prioritizes both performance and computational accessibility, hence democratizing the use of sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling stride forward in the realm of text-to-image synthesis, offering an innovative path to explore in future research.

Wuerstchen : Prétraitement efficace des modèles de génération d'images à partir de texte

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Résumé

Support