CogView3: Generazione di immagini da testo più precisa e veloce tramite diffusione a relè

Abstract

I recenti progressi nei sistemi generativi testo-immagine sono stati in gran parte guidati dai modelli di diffusione. Tuttavia, i modelli di diffusione testo-immagine a stadio singolo continuano a presentare sfide, in termini di efficienza computazionale e di perfezionamento dei dettagli dell'immagine. Per affrontare il problema, proponiamo CogView3, un innovativo framework a cascata che migliora le prestazioni della diffusione testo-immagine. CogView3 è il primo modello a implementare la diffusione a relè nel campo della generazione testo-immagine, eseguendo il compito creando prima immagini a bassa risoluzione e applicando successivamente una super-risoluzione basata su relè. Questa metodologia non solo produce risultati competitivi nella generazione testo-immagine, ma riduce notevolmente sia i costi di addestramento che di inferenza. I nostri risultati sperimentali dimostrano che CogView3 supera SDXL, l'attuale modello open-source all'avanguardia per la diffusione testo-immagine, del 77,0% nelle valutazioni umane, richiedendo solo circa la metà del tempo di inferenza. La variante distillata di CogView3 raggiunge prestazioni comparabili utilizzando solo 1/10 del tempo di inferenza richiesto da SDXL.

English

Recent advancements in text-to-image generative systems have been largely driven by diffusion models. However, single-stage text-to-image diffusion models still face challenges, in terms of computational efficiency and the refinement of image details. To tackle the issue, we propose CogView3, an innovative cascaded framework that enhances the performance of text-to-image diffusion. CogView3 is the first model implementing relay diffusion in the realm of text-to-image generation, executing the task by first creating low-resolution images and subsequently applying relay-based super-resolution. This methodology not only results in competitive text-to-image outputs but also greatly reduces both training and inference costs. Our experimental results demonstrate that CogView3 outperforms SDXL, the current state-of-the-art open-source text-to-image diffusion model, by 77.0\% in human evaluations, all while requiring only about 1/2 of the inference time. The distilled variant of CogView3 achieves comparable performance while only utilizing 1/10 of the inference time by SDXL.

CogView3: Generazione di immagini da testo più precisa e veloce tramite diffusione a relè

CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Abstract

Support