Kandinsky:画像事前分布と潜在拡散を活用した改良型テキスト画像合成
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion
October 5, 2023
著者: Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov
cs.AI
要旨
テキストから画像への生成は、現代のコンピュータビジョンにおける重要な領域であり、生成アーキテクチャの進化を通じて大幅な改善が達成されてきました。その中でも、拡散ベースのモデルは本質的な品質向上を示しています。これらのモデルは一般に、ピクセルレベルと潜在レベルのアプローチの2つのカテゴリに分類されます。本論文では、Kandinsky1という新しい潜在拡散アーキテクチャの探求を紹介します。これは、画像事前モデルの原理と潜在拡散技術を組み合わせたものです。画像事前モデルは、テキスト埋め込みをCLIPの画像埋め込みにマッピングするために別途訓練されます。提案モデルのもう一つの特徴は、画像オートエンコーダコンポーネントとして機能する改良版MoVQの実装です。全体として、設計されたモデルは33億のパラメータを含みます。また、テキストから画像生成、画像融合、テキストと画像の融合、画像バリエーション生成、テキストガイドによるインペインティング/アウトペインティングなど、多様な生成モードをサポートするユーザーフレンドリーなデモシステムを展開しました。さらに、Kandinskyモデルのソースコードとチェックポイントを公開しました。実験的評価では、COCO-30KデータセットにおいてFIDスコア8.03を達成し、測定可能な画像生成品質の点でトップのオープンソースパフォーマーとして位置づけられました。
English
Text-to-image generation is a significant domain in modern computer vision
and has achieved substantial improvements through the evolution of generative
architectures. Among these, there are diffusion-based models that have
demonstrated essential quality enhancements. These models are generally split
into two categories: pixel-level and latent-level approaches. We present
Kandinsky1, a novel exploration of latent diffusion architecture, combining the
principles of the image prior models with latent diffusion techniques. The
image prior model is trained separately to map text embeddings to image
embeddings of CLIP. Another distinct feature of the proposed model is the
modified MoVQ implementation, which serves as the image autoencoder component.
Overall, the designed model contains 3.3B parameters. We also deployed a
user-friendly demo system that supports diverse generative modes such as
text-to-image generation, image fusion, text and image fusion, image variations
generation, and text-guided inpainting/outpainting. Additionally, we released
the source code and checkpoints for the Kandinsky models. Experimental
evaluations demonstrate a FID score of 8.03 on the COCO-30K dataset, marking
our model as the top open-source performer in terms of measurable image
generation quality.