Generación de Imágenes Autocondicionadas mediante la Generación de Representaciones
Self-conditioned Image Generation via Generating Representations
December 6, 2023
Autores: Tianhong Li, Dina Katabi, Kaiming He
cs.AI
Resumen
Este artículo presenta Generación de Imágenes Condicionada por Representaciones (RCG, por sus siglas en inglés), un marco de generación de imágenes simple pero efectivo que establece un nuevo referente en la generación de imágenes sin condicionamiento de clase. RCG no se condiciona a anotaciones humanas. En su lugar, se condiciona a una distribución de representaciones auto-supervisadas que se mapea a partir de la distribución de imágenes utilizando un codificador preentrenado. Durante la generación, RCG muestrea de dicha distribución de representaciones utilizando un modelo de difusión de representaciones (RDM, por sus siglas en inglés) y emplea un generador de píxeles para crear los píxeles de la imagen condicionados por la representación muestreada. Este diseño proporciona una guía sustancial durante el proceso generativo, lo que resulta en una generación de imágenes de alta calidad. Evaluado en ImageNet 256×256, RCG logra una Distancia de Fréchet Inception (FID) de 3.31 y un Puntaje Inception (IS) de 253.4. Estos resultados no solo mejoran significativamente el estado del arte en la generación de imágenes sin condicionamiento de clase, sino que también rivalizan con los métodos líderes actuales en la generación de imágenes condicionadas por clase, cerrando la brecha de rendimiento que ha existido durante mucho tiempo entre estas dos tareas. El código está disponible en https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image
Generation (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.