自己条件付けによる画像生成:表現生成を介して
Self-conditioned Image Generation via Generating Representations
December 6, 2023
著者: Tianhong Li, Dina Katabi, Kaiming He
cs.AI
要旨
本論文は、Representation-Conditioned Image Generation(RCG)を提案する。これはシンプルでありながら効果的な画像生成フレームワークであり、クラス非条件付き画像生成において新たなベンチマークを確立する。RCGは人間によるアノテーションを一切条件付けとせず、代わりに事前学習済みエンコーダを用いて画像分布からマッピングされた自己教師表現分布を条件付けとする。生成時には、RCGは表現拡散モデル(RDM)を用いてこの表現分布からサンプリングし、サンプリングされた表現を条件としてピクセル生成器を用いて画像ピクセルを生成する。この設計により、生成プロセスにおいて大幅なガイダンスが提供され、高品質な画像生成が実現される。ImageNet 256×256での実験において、RCGはFrechet Inception Distance(FID)3.31、Inception Score(IS)253.4を達成した。これらの結果は、クラス非条件付き画像生成の最先端を大幅に向上させるだけでなく、クラス条件付き画像生成における現在の主要な手法にも匹敵し、これら2つのタスク間の長年の性能差を埋めるものである。コードはhttps://github.com/LTH14/rcgで公開されている。
English
This paper presents Representation-Conditioned image
Generation (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.