Génération d'images auto-conditionnée via la production de représentations

papers.abstract

Cet article présente la génération d'images conditionnée par les représentations (RCG), un cadre de génération d'images simple mais efficace qui établit un nouveau standard dans la génération d'images non conditionnée par classe. RCG ne se base sur aucune annotation humaine. Au lieu de cela, elle se conditionne sur une distribution de représentations auto-supervisées, elle-même dérivée de la distribution d'images à l'aide d'un encodeur pré-entraîné. Lors de la génération, RCG échantillonne à partir de cette distribution de représentations en utilisant un modèle de diffusion de représentations (RDM), et emploie un générateur de pixels pour créer les pixels de l'image en fonction de la représentation échantillonnée. Cette conception offre une guidance substantielle pendant le processus de génération, aboutissant à une génération d'images de haute qualité. Testé sur ImageNet 256×256, RCG atteint un Frechet Inception Distance (FID) de 3,31 et un Inception Score (IS) de 253,4. Ces résultats améliorent non seulement de manière significative l'état de l'art dans la génération d'images non conditionnée par classe, mais rivalisent également avec les méthodes actuelles les plus performantes dans la génération d'images conditionnée par classe, comblant ainsi l'écart de performance de longue date entre ces deux tâches. Le code est disponible à l'adresse suivante : https://github.com/LTH14/rcg.

English

This paper presents Representation-Conditioned image Generation (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.

Génération d'images auto-conditionnée via la production de représentations

Self-conditioned Image Generation via Generating Representations

papers.abstract

Support