Generazione di immagini auto-condizionata tramite la generazione di rappresentazioni
Self-conditioned Image Generation via Generating Representations
December 6, 2023
Autori: Tianhong Li, Dina Katabi, Kaiming He
cs.AI
Abstract
Questo articolo presenta il framework di generazione di immagini Representation-Conditioned (RCG), un approccio semplice ma efficace che stabilisce un nuovo benchmark nella generazione di immagini senza condizionamento di classe. RCG non si basa su annotazioni umane. Invece, si condiziona su una distribuzione di rappresentazioni auto-supervisionate, mappata dalla distribuzione di immagini utilizzando un encoder pre-addestrato. Durante la generazione, RCG campiona da tale distribuzione di rappresentazioni utilizzando un modello di diffusione delle rappresentazioni (RDM) e impiega un generatore di pixel per creare i pixel dell'immagine condizionati sulla rappresentazione campionata. Questo design fornisce una guida sostanziale durante il processo generativo, portando a una generazione di immagini di alta qualità. Testato su ImageNet 256x256, RCG raggiunge un Frechet Inception Distance (FID) di 3.31 e un Inception Score (IS) di 253.4. Questi risultati non solo migliorano significativamente lo stato dell'arte nella generazione di immagini senza condizionamento di classe, ma rivaleggiano anche con i metodi leader attuali nella generazione di immagini con condizionamento di classe, colmando il divario di prestazioni di lunga data tra queste due attività. Il codice è disponibile all'indirizzo https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image
Generation (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.