Zelf-geconditioneerde beeldgeneratie via het genereren van representaties
Self-conditioned Image Generation via Generating Representations
December 6, 2023
Auteurs: Tianhong Li, Dina Katabi, Kaiming He
cs.AI
Samenvatting
Dit artikel introduceert Representation-Conditioned Image Generation (RCG), een eenvoudig maar effectief framework voor beeldgeneratie dat een nieuwe standaard zet in klasse-onvoorwaardelijke beeldgeneratie. RCG maakt geen gebruik van menselijke annotaties. In plaats daarvan baseert het zich op een zelf-supervisiede representatiedistributie die wordt afgeleid van de beelddistributie met behulp van een vooraf getrainde encoder. Tijdens het generatieproces neemt RCG steekproeven uit deze representatiedistributie met behulp van een representatiediffusiemodel (RDM) en gebruikt een pixelgenerator om beeldpixels te creëren die zijn geconditioneerd op de geselecteerde representatie. Dit ontwerp biedt aanzienlijke begeleiding tijdens het generatieve proces, wat resulteert in hoogwaardige beeldgeneratie. Getest op ImageNet 256x256 bereikt RCG een Frechet Inception Distance (FID) van 3.31 en een Inception Score (IS) van 253.4. Deze resultaten verbeteren niet alleen aanzienlijk de state-of-the-art in klasse-onvoorwaardelijke beeldgeneratie, maar wedijveren ook met de huidige toonaangevende methoden in klasse-voorwaardelijke beeldgeneratie, waardoor de lang bestaande prestatiekloof tussen deze twee taken wordt overbrugd. De code is beschikbaar op https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image
Generation (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.