CogView3: Geração de Imagens a partir de Texto Mais Refinada e Rápida através de Difusão em Relé

Resumo

Os avanços recentes em sistemas generativos de texto para imagem têm sido amplamente impulsionados por modelos de difusão. No entanto, os modelos de difusão de estágio único ainda enfrentam desafios em termos de eficiência computacional e refinamento de detalhes da imagem. Para abordar essa questão, propomos o CogView3, uma estrutura inovadora em cascata que aprimora o desempenho da difusão de texto para imagem. O CogView3 é o primeiro modelo a implementar a difusão em retransmissão no domínio da geração de texto para imagem, executando a tarefa primeiro criando imagens de baixa resolução e, em seguida, aplicando super-resolução baseada em retransmissão. Essa metodologia não apenas resulta em saídas competitivas de texto para imagem, mas também reduz significativamente os custos de treinamento e inferência. Nossos resultados experimentais demonstram que o CogView3 supera o SDXL, o atual modelo de difusão de texto para imagem de código aberto mais avançado, em 77,0% nas avaliações humanas, tudo isso exigindo apenas cerca de metade do tempo de inferência. A variante destilada do CogView3 alcança desempenho comparável enquanto utiliza apenas 1/10 do tempo de inferência do SDXL.

English

Recent advancements in text-to-image generative systems have been largely driven by diffusion models. However, single-stage text-to-image diffusion models still face challenges, in terms of computational efficiency and the refinement of image details. To tackle the issue, we propose CogView3, an innovative cascaded framework that enhances the performance of text-to-image diffusion. CogView3 is the first model implementing relay diffusion in the realm of text-to-image generation, executing the task by first creating low-resolution images and subsequently applying relay-based super-resolution. This methodology not only results in competitive text-to-image outputs but also greatly reduces both training and inference costs. Our experimental results demonstrate that CogView3 outperforms SDXL, the current state-of-the-art open-source text-to-image diffusion model, by 77.0\% in human evaluations, all while requiring only about 1/2 of the inference time. The distilled variant of CogView3 achieves comparable performance while only utilizing 1/10 of the inference time by SDXL.

CogView3: Geração de Imagens a partir de Texto Mais Refinada e Rápida através de Difusão em Relé

CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Resumo

Support