Генерация изображений с самокондиционированием через создание представлений

Аннотация

В данной статье представлен метод генерации изображений, основанный на условных представлениях (Representation-Conditioned image Generation, RCG), — простая, но эффективная структура, устанавливающая новый стандарт в области безусловной генерации изображений. RCG не использует аннотации, созданные человеком. Вместо этого он основывается на распределении самоконтролируемых представлений, которое отображается из распределения изображений с помощью предварительно обученного кодировщика. В процессе генерации RCG выбирает образцы из этого распределения представлений с использованием модели диффузии представлений (Representation Diffusion Model, RDM) и применяет генератор пикселей для создания изображений, обусловленных выбранными представлениями. Такая конструкция обеспечивает значительное руководство в процессе генерации, что приводит к созданию изображений высокого качества. Протестированный на наборе данных ImageNet 256×256, RCG достигает показателя Frechet Inception Distance (FID) 3.31 и Inception Score (IS) 253.4. Эти результаты не только существенно улучшают современные достижения в области безусловной генерации изображений, но также конкурируют с ведущими методами в условной генерации изображений, сокращая давний разрыв в производительности между этими двумя задачами. Код доступен по адресу https://github.com/LTH14/rcg.

English

This paper presents Representation-Conditioned image Generation (RCG), a simple yet effective image generation framework which sets a new benchmark in class-unconditional image generation. RCG does not condition on any human annotations. Instead, it conditions on a self-supervised representation distribution which is mapped from the image distribution using a pre-trained encoder. During generation, RCG samples from such representation distribution using a representation diffusion model (RDM), and employs a pixel generator to craft image pixels conditioned on the sampled representation. Such a design provides substantial guidance during the generative process, resulting in high-quality image generation. Tested on ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of 3.31 and an Inception Score (IS) of 253.4. These results not only significantly improve the state-of-the-art of class-unconditional image generation but also rival the current leading methods in class-conditional image generation, bridging the long-standing performance gap between these two tasks. Code is available at https://github.com/LTH14/rcg.

Генерация изображений с самокондиционированием через создание представлений

Self-conditioned Image Generation via Generating Representations

Аннотация

Support