CogView3: Generazione di immagini da testo più precisa e veloce tramite diffusione a relè
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
March 8, 2024
Autori: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Abstract
I recenti progressi nei sistemi generativi testo-immagine sono stati in gran parte guidati dai modelli di diffusione. Tuttavia, i modelli di diffusione testo-immagine a stadio singolo continuano a presentare sfide, in termini di efficienza computazionale e di perfezionamento dei dettagli dell'immagine. Per affrontare il problema, proponiamo CogView3, un innovativo framework a cascata che migliora le prestazioni della diffusione testo-immagine. CogView3 è il primo modello a implementare la diffusione a relè nel campo della generazione testo-immagine, eseguendo il compito creando prima immagini a bassa risoluzione e applicando successivamente una super-risoluzione basata su relè. Questa metodologia non solo produce risultati competitivi nella generazione testo-immagine, ma riduce notevolmente sia i costi di addestramento che di inferenza. I nostri risultati sperimentali dimostrano che CogView3 supera SDXL, l'attuale modello open-source all'avanguardia per la diffusione testo-immagine, del 77,0% nelle valutazioni umane, richiedendo solo circa la metà del tempo di inferenza. La variante distillata di CogView3 raggiunge prestazioni comparabili utilizzando solo 1/10 del tempo di inferenza richiesto da SDXL.
English
Recent advancements in text-to-image generative systems have been largely
driven by diffusion models. However, single-stage text-to-image diffusion
models still face challenges, in terms of computational efficiency and the
refinement of image details. To tackle the issue, we propose CogView3, an
innovative cascaded framework that enhances the performance of text-to-image
diffusion. CogView3 is the first model implementing relay diffusion in the
realm of text-to-image generation, executing the task by first creating
low-resolution images and subsequently applying relay-based super-resolution.
This methodology not only results in competitive text-to-image outputs but also
greatly reduces both training and inference costs. Our experimental results
demonstrate that CogView3 outperforms SDXL, the current state-of-the-art
open-source text-to-image diffusion model, by 77.0\% in human evaluations, all
while requiring only about 1/2 of the inference time. The distilled variant of
CogView3 achieves comparable performance while only utilizing 1/10 of the
inference time by SDXL.