BiGR: Использование бинарных скрытых кодов для генерации изображений и улучшения возможностей визуального представления.
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities
October 18, 2024
Авторы: Shaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong
cs.AI
Аннотация
Мы представляем BiGR, новую модель условной генерации изображений с использованием компактных бинарных латентных кодов для обучения генерации, с акцентом на улучшение как возможностей генерации, так и представления. BiGR является первой условной генеративной моделью, объединяющей генерацию и дискриминацию в одной и той же структуре. BiGR включает бинарный токенизатор, механизм маскирования модели и бинарный транскодер для предсказания бинарного кода. Кроме того, мы представляем новый метод выборки с упорядочением энтропии для обеспечения эффективной генерации изображений. Обширные эксперименты подтверждают превосходное качество генерации BiGR, измеряемое по FID-50k, и возможности представления, подтвержденные точностью линейного зонда. Более того, BiGR демонстрирует обобщение без обучения на различные задачи в области зрения, позволяя применения, такие как заполнение изображений, создание изображений, редактирование, интерполяция и обогащение, без необходимости структурных модификаций. Наши результаты свидетельствуют о том, что BiGR эффективно объединяет генеративные и дискриминационные задачи, прокладывая путь для дальнейших достижений в этой области.
English
We introduce BiGR, a novel conditional image generation model using compact
binary latent codes for generative training, focusing on enhancing both
generation and representation capabilities. BiGR is the first conditional
generative model that unifies generation and discrimination within the same
framework. BiGR features a binary tokenizer, a masked modeling mechanism, and a
binary transcoder for binary code prediction. Additionally, we introduce a
novel entropy-ordered sampling method to enable efficient image generation.
Extensive experiments validate BiGR's superior performance in generation
quality, as measured by FID-50k, and representation capabilities, as evidenced
by linear-probe accuracy. Moreover, BiGR showcases zero-shot generalization
across various vision tasks, enabling applications such as image inpainting,
outpainting, editing, interpolation, and enrichment, without the need for
structural modifications. Our findings suggest that BiGR unifies generative and
discriminative tasks effectively, paving the way for further advancements in
the field.Summary
AI-Generated Summary