Zelf-geconditioneerde beeldgeneratie via het genereren van representaties

Samenvatting

Dit artikel introduceert Representation-Conditioned Image Generation (RCG), een eenvoudig maar effectief framework voor beeldgeneratie dat een nieuwe standaard zet in klasse-onvoorwaardelijke beeldgeneratie. RCG maakt geen gebruik van menselijke annotaties. In plaats daarvan baseert het zich op een zelf-supervisiede representatiedistributie die wordt afgeleid van de beelddistributie met behulp van een vooraf getrainde encoder. Tijdens het generatieproces neemt RCG steekproeven uit deze representatiedistributie met behulp van een representatiediffusiemodel (RDM) en gebruikt een pixelgenerator om beeldpixels te creëren die zijn geconditioneerd op de geselecteerde representatie. Dit ontwerp biedt aanzienlijke begeleiding tijdens het generatieve proces, wat resulteert in hoogwaardige beeldgeneratie. Getest op ImageNet 256x256 bereikt RCG een Frechet Inception Distance (FID) van 3.31 en een Inception Score (IS) van 253.4. Deze resultaten verbeteren niet alleen aanzienlijk de state-of-the-art in klasse-onvoorwaardelijke beeldgeneratie, maar wedijveren ook met de huidige toonaangevende methoden in klasse-voorwaardelijke beeldgeneratie, waardoor de lang bestaande prestatiekloof tussen deze twee taken wordt overbrugd. De code is beschikbaar op https://github.com/LTH14/rcg.

English

This paper presents Representation-Conditioned image Generation (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.

Zelf-geconditioneerde beeldgeneratie via het genereren van representaties

Self-conditioned Image Generation via Generating Representations

Samenvatting

Support