CogView3: Fijnere en Snellere Tekst-naar-Beeld Generatie via Relay Diffusie
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
March 8, 2024
Auteurs: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeld generatieve systemen is grotendeels gedreven door diffusiemodellen. Echter, enkelfase tekst-naar-beeld diffusiemodellen kampen nog steeds met uitdagingen op het gebied van rekenkundige efficiëntie en de verfijning van beelddetails. Om dit probleem aan te pakken, stellen we CogView3 voor, een innovatief cascadeframework dat de prestaties van tekst-naar-beeld diffusie verbetert. CogView3 is het eerste model dat relay-diffusie implementeert in het domein van tekst-naar-beeld generatie, waarbij de taak wordt uitgevoerd door eerst afbeeldingen met een lage resolutie te creëren en vervolgens relay-gebaseerde superresolutie toe te passen. Deze methodologie resulteert niet alleen in competitieve tekst-naar-beeld uitvoer, maar vermindert ook aanzienlijk zowel de trainings- als de inferentiekosten. Onze experimentele resultaten tonen aan dat CogView3 SDXL, het huidige state-of-the-art open-source tekst-naar-beeld diffusiemodel, overtreft met 77,0% in menselijke evaluaties, terwijl het slechts ongeveer de helft van de inferentietijd vereist. De gedistilleerde variant van CogView3 bereikt vergelijkbare prestaties terwijl slechts 1/10 van de inferentietijd van SDXL wordt gebruikt.
English
Recent advancements in text-to-image generative systems have been largely
driven by diffusion models. However, single-stage text-to-image diffusion
models still face challenges, in terms of computational efficiency and the
refinement of image details. To tackle the issue, we propose CogView3, an
innovative cascaded framework that enhances the performance of text-to-image
diffusion. CogView3 is the first model implementing relay diffusion in the
realm of text-to-image generation, executing the task by first creating
low-resolution images and subsequently applying relay-based super-resolution.
This methodology not only results in competitive text-to-image outputs but also
greatly reduces both training and inference costs. Our experimental results
demonstrate that CogView3 outperforms SDXL, the current state-of-the-art
open-source text-to-image diffusion model, by 77.0\% in human evaluations, all
while requiring only about 1/2 of the inference time. The distilled variant of
CogView3 achieves comparable performance while only utilizing 1/10 of the
inference time by SDXL.