ChatPaper.aiChatPaper

Generación de Imágenes Autocondicionadas mediante la Generación de Representaciones

Self-conditioned Image Generation via Generating Representations

December 6, 2023
Autores: Tianhong Li, Dina Katabi, Kaiming He
cs.AI

Resumen

Este artículo presenta Generación de Imágenes Condicionada por Representaciones (RCG, por sus siglas en inglés), un marco de generación de imágenes simple pero efectivo que establece un nuevo referente en la generación de imágenes sin condicionamiento de clase. RCG no se condiciona a anotaciones humanas. En su lugar, se condiciona a una distribución de representaciones auto-supervisadas que se mapea a partir de la distribución de imágenes utilizando un codificador preentrenado. Durante la generación, RCG muestrea de dicha distribución de representaciones utilizando un modelo de difusión de representaciones (RDM, por sus siglas en inglés) y emplea un generador de píxeles para crear los píxeles de la imagen condicionados por la representación muestreada. Este diseño proporciona una guía sustancial durante el proceso generativo, lo que resulta en una generación de imágenes de alta calidad. Evaluado en ImageNet 256×256, RCG logra una Distancia de Fréchet Inception (FID) de 3.31 y un Puntaje Inception (IS) de 253.4. Estos resultados no solo mejoran significativamente el estado del arte en la generación de imágenes sin condicionamiento de clase, sino que también rivalizan con los métodos líderes actuales en la generación de imágenes condicionadas por clase, cerrando la brecha de rendimiento que ha existido durante mucho tiempo entre estas dos tareas. El código está disponible en https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image Generation (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.
PDF90December 15, 2024