CogView3: Generación de imágenes a partir de texto más precisa y rápida mediante difusión en relevo
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
March 8, 2024
Autores: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Resumen
Los avances recientes en los sistemas generativos de texto a imagen han estado impulsados en gran medida por los modelos de difusión. Sin embargo, los modelos de difusión de texto a imagen de una sola etapa aún enfrentan desafíos en términos de eficiencia computacional y refinamiento de detalles de la imagen. Para abordar este problema, proponemos CogView3, un marco innovador en cascada que mejora el rendimiento de la difusión de texto a imagen. CogView3 es el primer modelo que implementa la difusión en relevos en el ámbito de la generación de texto a imagen, ejecutando la tarea creando primero imágenes de baja resolución y aplicando posteriormente una super-resolución basada en relevos. Esta metodología no solo produce resultados competitivos en la generación de texto a imagen, sino que también reduce significativamente los costos tanto de entrenamiento como de inferencia. Nuestros resultados experimentales demuestran que CogView3 supera a SDXL, el modelo de difusión de texto a imagen de código abierto más avanzado actualmente, en un 77.0\% en evaluaciones humanas, todo ello requiriendo solo aproximadamente la mitad del tiempo de inferencia. La variante destilada de CogView3 logra un rendimiento comparable utilizando solo 1/10 del tiempo de inferencia de SDXL.
English
Recent advancements in text-to-image generative systems have been largely
driven by diffusion models. However, single-stage text-to-image diffusion
models still face challenges, in terms of computational efficiency and the
refinement of image details. To tackle the issue, we propose CogView3, an
innovative cascaded framework that enhances the performance of text-to-image
diffusion. CogView3 is the first model implementing relay diffusion in the
realm of text-to-image generation, executing the task by first creating
low-resolution images and subsequently applying relay-based super-resolution.
This methodology not only results in competitive text-to-image outputs but also
greatly reduces both training and inference costs. Our experimental results
demonstrate that CogView3 outperforms SDXL, the current state-of-the-art
open-source text-to-image diffusion model, by 77.0\% in human evaluations, all
while requiring only about 1/2 of the inference time. The distilled variant of
CogView3 achieves comparable performance while only utilizing 1/10 of the
inference time by SDXL.