Geração de Imagens Autocondicionada por meio da Geração de Representações
Self-conditioned Image Generation via Generating Representations
December 6, 2023
Autores: Tianhong Li, Dina Katabi, Kaiming He
cs.AI
Resumo
Este artigo apresenta o Generation Condicionado por Representação (RCG, do inglês Representation-Conditioned image Generation), um framework simples, porém eficaz, para geração de imagens que estabelece um novo padrão na geração de imagens sem condicionamento de classe. O RCG não se baseia em nenhuma anotação humana. Em vez disso, ele se condiciona a uma distribuição de representações auto-supervisionadas, que é mapeada a partir da distribuição de imagens usando um codificador pré-treinado. Durante a geração, o RCG amostra dessa distribuição de representações usando um modelo de difusão de representações (RDM, do inglês Representation Diffusion Model) e emprega um gerador de pixels para criar os pixels da imagem condicionados à representação amostrada. Esse design fornece uma orientação substancial durante o processo generativo, resultando em geração de imagens de alta qualidade. Testado no ImageNet 256×256, o RCG alcança uma Distância de Fréchet Inception (FID) de 3,31 e um Índice Inception (IS) de 253,4. Esses resultados não apenas melhoram significativamente o estado da arte na geração de imagens sem condicionamento de classe, mas também rivalizam com os principais métodos atuais na geração de imagens com condicionamento de classe, reduzindo a longa lacuna de desempenho entre essas duas tarefas. O código está disponível em https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image
Generation (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.