CogView3: リレーディフュージョンによるより精細で高速なテキストから画像への生成
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
March 8, 2024
著者: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
要旨
最近のテキストから画像を生成するシステムの進歩は、主に拡散モデルによって推進されてきました。しかし、単段階のテキストから画像への拡散モデルは、計算効率と画像の詳細の洗練という点で依然として課題に直面しています。この問題に対処するため、我々はCogView3を提案します。これは、テキストから画像への拡散の性能を向上させる革新的なカスケードフレームワークです。CogView3は、テキストから画像生成の領域でリレー拡散を実装した最初のモデルであり、まず低解像度の画像を作成し、その後リレーベースの超解像を適用することでタスクを実行します。この方法論は、競争力のあるテキストから画像への出力を実現するだけでなく、トレーニングと推論のコストを大幅に削減します。我々の実験結果は、CogView3が現在の最先端のオープンソーステキストから画像拡散モデルであるSDXLを人間評価で77.0%上回り、しかも推論時間は約1/2しか必要としないことを示しています。CogView3の蒸留バリアントは、SDXLの1/10の推論時間しか使用せずに同等の性能を達成します。
English
Recent advancements in text-to-image generative systems have been largely
driven by diffusion models. However, single-stage text-to-image diffusion
models still face challenges, in terms of computational efficiency and the
refinement of image details. To tackle the issue, we propose CogView3, an
innovative cascaded framework that enhances the performance of text-to-image
diffusion. CogView3 is the first model implementing relay diffusion in the
realm of text-to-image generation, executing the task by first creating
low-resolution images and subsequently applying relay-based super-resolution.
This methodology not only results in competitive text-to-image outputs but also
greatly reduces both training and inference costs. Our experimental results
demonstrate that CogView3 outperforms SDXL, the current state-of-the-art
open-source text-to-image diffusion model, by 77.0\% in human evaluations, all
while requiring only about 1/2 of the inference time. The distilled variant of
CogView3 achieves comparable performance while only utilizing 1/10 of the
inference time by SDXL.