CogView3: Geração de Imagens a partir de Texto Mais Refinada e Rápida através de Difusão em Relé
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
March 8, 2024
Autores: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Resumo
Os avanços recentes em sistemas generativos de texto para imagem têm sido amplamente impulsionados por modelos de difusão. No entanto, os modelos de difusão de estágio único ainda enfrentam desafios em termos de eficiência computacional e refinamento de detalhes da imagem. Para abordar essa questão, propomos o CogView3, uma estrutura inovadora em cascata que aprimora o desempenho da difusão de texto para imagem. O CogView3 é o primeiro modelo a implementar a difusão em retransmissão no domínio da geração de texto para imagem, executando a tarefa primeiro criando imagens de baixa resolução e, em seguida, aplicando super-resolução baseada em retransmissão. Essa metodologia não apenas resulta em saídas competitivas de texto para imagem, mas também reduz significativamente os custos de treinamento e inferência. Nossos resultados experimentais demonstram que o CogView3 supera o SDXL, o atual modelo de difusão de texto para imagem de código aberto mais avançado, em 77,0% nas avaliações humanas, tudo isso exigindo apenas cerca de metade do tempo de inferência. A variante destilada do CogView3 alcança desempenho comparável enquanto utiliza apenas 1/10 do tempo de inferência do SDXL.
English
Recent advancements in text-to-image generative systems have been largely
driven by diffusion models. However, single-stage text-to-image diffusion
models still face challenges, in terms of computational efficiency and the
refinement of image details. To tackle the issue, we propose CogView3, an
innovative cascaded framework that enhances the performance of text-to-image
diffusion. CogView3 is the first model implementing relay diffusion in the
realm of text-to-image generation, executing the task by first creating
low-resolution images and subsequently applying relay-based super-resolution.
This methodology not only results in competitive text-to-image outputs but also
greatly reduces both training and inference costs. Our experimental results
demonstrate that CogView3 outperforms SDXL, the current state-of-the-art
open-source text-to-image diffusion model, by 77.0\% in human evaluations, all
while requiring only about 1/2 of the inference time. The distilled variant of
CogView3 achieves comparable performance while only utilizing 1/10 of the
inference time by SDXL.