Generazione di immagini auto-condizionata tramite la generazione di rappresentazioni

Abstract

Questo articolo presenta il framework di generazione di immagini Representation-Conditioned (RCG), un approccio semplice ma efficace che stabilisce un nuovo benchmark nella generazione di immagini senza condizionamento di classe. RCG non si basa su annotazioni umane. Invece, si condiziona su una distribuzione di rappresentazioni auto-supervisionate, mappata dalla distribuzione di immagini utilizzando un encoder pre-addestrato. Durante la generazione, RCG campiona da tale distribuzione di rappresentazioni utilizzando un modello di diffusione delle rappresentazioni (RDM) e impiega un generatore di pixel per creare i pixel dell'immagine condizionati sulla rappresentazione campionata. Questo design fornisce una guida sostanziale durante il processo generativo, portando a una generazione di immagini di alta qualità. Testato su ImageNet 256x256, RCG raggiunge un Frechet Inception Distance (FID) di 3.31 e un Inception Score (IS) di 253.4. Questi risultati non solo migliorano significativamente lo stato dell'arte nella generazione di immagini senza condizionamento di classe, ma rivaleggiano anche con i metodi leader attuali nella generazione di immagini con condizionamento di classe, colmando il divario di prestazioni di lunga data tra queste due attività. Il codice è disponibile all'indirizzo https://github.com/LTH14/rcg.

English

This paper presents Representation-Conditioned image Generation (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.

Generazione di immagini auto-condizionata tramite la generazione di rappresentazioni

Self-conditioned Image Generation via Generating Representations

Abstract

Support