Génération d'images auto-conditionnée via la production de représentations
Self-conditioned Image Generation via Generating Representations
December 6, 2023
Auteurs: Tianhong Li, Dina Katabi, Kaiming He
cs.AI
Résumé
Cet article présente la génération d'images conditionnée par les représentations (RCG), un cadre de génération d'images simple mais efficace qui établit un nouveau standard dans la génération d'images non conditionnée par classe. RCG ne se base sur aucune annotation humaine. Au lieu de cela, elle se conditionne sur une distribution de représentations auto-supervisées, elle-même dérivée de la distribution d'images à l'aide d'un encodeur pré-entraîné. Lors de la génération, RCG échantillonne à partir de cette distribution de représentations en utilisant un modèle de diffusion de représentations (RDM), et emploie un générateur de pixels pour créer les pixels de l'image en fonction de la représentation échantillonnée. Cette conception offre une guidance substantielle pendant le processus de génération, aboutissant à une génération d'images de haute qualité. Testé sur ImageNet 256×256, RCG atteint un Frechet Inception Distance (FID) de 3,31 et un Inception Score (IS) de 253,4. Ces résultats améliorent non seulement de manière significative l'état de l'art dans la génération d'images non conditionnée par classe, mais rivalisent également avec les méthodes actuelles les plus performantes dans la génération d'images conditionnée par classe, comblant ainsi l'écart de performance de longue date entre ces deux tâches. Le code est disponible à l'adresse suivante : https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image
Generation (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.