Wuerstchen : Prétraitement efficace des modèles de génération d'images à partir de texte
Wuerstchen: Efficient Pretraining of Text-to-Image Models
June 1, 2023
Auteurs: Pablo Pernias, Dominic Rampas, Marc Aubreville
cs.AI
Résumé
Nous présentons Wuerstchen, une nouvelle technique de synthèse d'images à partir de texte qui allie des performances compétitives à une efficacité économique sans précédent et une facilité d'entraînement sur du matériel limité. S'appuyant sur les avancées récentes en apprentissage automatique, notre approche, qui utilise des stratégies de diffusion latente avec des taux de compression d'image latente élevés, réduit considérablement la charge de calcul, généralement associée aux modèles de pointe, tout en préservant, voire en améliorant, la qualité des images générées. Wuerstchen réalise des améliorations notables en termes de vitesse lors de l'inférence, rendant ainsi les applications en temps réel plus viables. L'un des principaux avantages de notre méthode réside dans ses modestes exigences d'entraînement, nécessitant seulement 9 200 heures de GPU, ce qui réduit considérablement les coûts habituels sans compromettre les performances finales. Dans une comparaison avec l'état de l'art, nous avons constaté que cette approche offre une forte compétitivité. Cet article ouvre la voie à une nouvelle ligne de recherche qui privilégie à la fois les performances et l'accessibilité computationnelle, démocratisant ainsi l'utilisation des technologies d'IA sophistiquées. À travers Wuerstchen, nous démontrons un pas en avant convaincant dans le domaine de la synthèse d'images à partir de texte, offrant une voie innovante à explorer dans les recherches futures.
English
We introduce Wuerstchen, a novel technique for text-to-image synthesis that
unites competitive performance with unprecedented cost-effectiveness and ease
of training on constrained hardware. Building on recent advancements in machine
learning, our approach, which utilizes latent diffusion strategies at strong
latent image compression rates, significantly reduces the computational burden,
typically associated with state-of-the-art models, while preserving, if not
enhancing, the quality of generated images. Wuerstchen achieves notable speed
improvements at inference time, thereby rendering real-time applications more
viable. One of the key advantages of our method lies in its modest training
requirements of only 9,200 GPU hours, slashing the usual costs significantly
without compromising the end performance. In a comparison against the
state-of-the-art, we found the approach to yield strong competitiveness. This
paper opens the door to a new line of research that prioritizes both
performance and computational accessibility, hence democratizing the use of
sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling
stride forward in the realm of text-to-image synthesis, offering an innovative
path to explore in future research.