CogView3 : Génération d'images à partir de texte plus fine et plus rapide grâce à la diffusion en relais
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
March 8, 2024
Auteurs: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Résumé
Les récents progrès dans les systèmes génératifs de texte-à-image ont été largement portés par les modèles de diffusion. Cependant, les modèles de diffusion de texte-à-image en une seule étape continuent de rencontrer des défis, notamment en termes d'efficacité computationnelle et de raffinement des détails de l'image. Pour résoudre ce problème, nous proposons CogView3, un cadre innovant en cascade qui améliore les performances de la diffusion de texte-à-image. CogView3 est le premier modèle à mettre en œuvre la diffusion en relais dans le domaine de la génération de texte-à-image, exécutant la tâche en créant d'abord des images à basse résolution, puis en appliquant une super-résolution basée sur le relais. Cette méthodologie permet non seulement d'obtenir des résultats compétitifs en texte-à-image, mais réduit également considérablement les coûts d'entraînement et d'inférence. Nos résultats expérimentaux montrent que CogView3 surpasse SDXL, le modèle de diffusion de texte-à-image open-source actuellement le plus avancé, de 77,0 % dans les évaluations humaines, tout en nécessitant seulement environ la moitié du temps d'inférence. La variante distillée de CogView3 atteint des performances comparables tout en n'utilisant qu'un dixième du temps d'inférence de SDXL.
English
Recent advancements in text-to-image generative systems have been largely
driven by diffusion models. However, single-stage text-to-image diffusion
models still face challenges, in terms of computational efficiency and the
refinement of image details. To tackle the issue, we propose CogView3, an
innovative cascaded framework that enhances the performance of text-to-image
diffusion. CogView3 is the first model implementing relay diffusion in the
realm of text-to-image generation, executing the task by first creating
low-resolution images and subsequently applying relay-based super-resolution.
This methodology not only results in competitive text-to-image outputs but also
greatly reduces both training and inference costs. Our experimental results
demonstrate that CogView3 outperforms SDXL, the current state-of-the-art
open-source text-to-image diffusion model, by 77.0\% in human evaluations, all
while requiring only about 1/2 of the inference time. The distilled variant of
CogView3 achieves comparable performance while only utilizing 1/10 of the
inference time by SDXL.Summary
AI-Generated Summary