Генерация изображений с самокондиционированием через создание представлений
Self-conditioned Image Generation via Generating Representations
December 6, 2023
Авторы: Tianhong Li, Dina Katabi, Kaiming He
cs.AI
Аннотация
В данной статье представлен метод генерации изображений, основанный на условных представлениях (Representation-Conditioned image Generation, RCG), — простая, но эффективная структура, устанавливающая новый стандарт в области безусловной генерации изображений. RCG не использует аннотации, созданные человеком. Вместо этого он основывается на распределении самоконтролируемых представлений, которое отображается из распределения изображений с помощью предварительно обученного кодировщика. В процессе генерации RCG выбирает образцы из этого распределения представлений с использованием модели диффузии представлений (Representation Diffusion Model, RDM) и применяет генератор пикселей для создания изображений, обусловленных выбранными представлениями. Такая конструкция обеспечивает значительное руководство в процессе генерации, что приводит к созданию изображений высокого качества. Протестированный на наборе данных ImageNet 256×256, RCG достигает показателя Frechet Inception Distance (FID) 3.31 и Inception Score (IS) 253.4. Эти результаты не только существенно улучшают современные достижения в области безусловной генерации изображений, но также конкурируют с ведущими методами в условной генерации изображений, сокращая давний разрыв в производительности между этими двумя задачами. Код доступен по адресу https://github.com/LTH14/rcg.
English
This paper presents Representation-Conditioned image
Generation (RCG), a simple yet effective image generation framework
which sets a new benchmark in class-unconditional image generation. RCG does
not condition on any human annotations. Instead, it conditions on a
self-supervised representation distribution which is mapped from the image
distribution using a pre-trained encoder. During generation, RCG samples from
such representation distribution using a representation diffusion model (RDM),
and employs a pixel generator to craft image pixels conditioned on the sampled
representation. Such a design provides substantial guidance during the
generative process, resulting in high-quality image generation. Tested on
ImageNet 256times256, RCG achieves a Frechet Inception Distance (FID) of
3.31 and an Inception Score (IS) of 253.4. These results not only significantly
improve the state-of-the-art of class-unconditional image generation but also
rival the current leading methods in class-conditional image generation,
bridging the long-standing performance gap between these two tasks. Code is
available at https://github.com/LTH14/rcg.