CogView3: Более тонкая и быстрая генерация текста в изображение с помощью ретрансляционной диффузии
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
March 8, 2024
Авторы: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Аннотация
Недавние достижения в системах генерации изображений по тексту в значительной степени обусловлены моделями диффузии. Однако одноэтапные модели диффузии из текста в изображение по-прежнему сталкиваются с проблемами в области вычислительной эффективности и улучшения деталей изображения. Для решения этой проблемы мы предлагаем CogView3, инновационную каскадную структуру, которая повышает производительность диффузии из текста в изображение. CogView3 является первой моделью, реализующей ретрансляцию диффузии в области генерации изображений по тексту, выполняя задачу путем создания сначала изображений низкого разрешения, а затем применения ретрансляционного суперразрешения. Этот метод не только приводит к конкурентоспособным результатам генерации изображений по тексту, но также значительно снижает как затраты на обучение, так и на вывод. Наши экспериментальные результаты показывают, что CogView3 превосходит SDXL, текущую передовую модель открытого исходного кода диффузии из текста в изображение, на 77,0\% по результатам оценки людей, при этом требуя всего примерно половины времени вывода. Упрощенный вариант CogView3 достигает сопоставимой производительности, используя всего 1/10 времени вывода по сравнению с SDXL.
English
Recent advancements in text-to-image generative systems have been largely
driven by diffusion models. However, single-stage text-to-image diffusion
models still face challenges, in terms of computational efficiency and the
refinement of image details. To tackle the issue, we propose CogView3, an
innovative cascaded framework that enhances the performance of text-to-image
diffusion. CogView3 is the first model implementing relay diffusion in the
realm of text-to-image generation, executing the task by first creating
low-resolution images and subsequently applying relay-based super-resolution.
This methodology not only results in competitive text-to-image outputs but also
greatly reduces both training and inference costs. Our experimental results
demonstrate that CogView3 outperforms SDXL, the current state-of-the-art
open-source text-to-image diffusion model, by 77.0\% in human evaluations, all
while requiring only about 1/2 of the inference time. The distilled variant of
CogView3 achieves comparable performance while only utilizing 1/10 of the
inference time by SDXL.Summary
AI-Generated Summary