Вейвлеты - все, что вам нужно для авторегрессивной генерации изображений.
Wavelets Are All You Need for Autoregressive Image Generation
June 28, 2024
Авторы: Wael Mattar, Idan Levy, Nir Sharon, Shai Dekel
cs.AI
Аннотация
В данной статье мы предлагаем новый подход к авторегрессивной генерации изображений, основанный на двух основных компонентах. Первый компонент - это вейвлет-кодирование изображений, которое позволяет токенизировать визуальные детали изображения от грубых к более детальным, упорядочивая информацию, начиная с наиболее значимых битов наиболее значимых вейвлет-коэффициентов. Второй компонент - вариант языкового трансформера, архитектура которого переработана и оптимизирована для последовательностей токенов в этом "вейвлет-языке". Трансформер изучает значительные статистические корреляции в последовательности токенов, которые являются проявлением известных корреляций между вейвлет-поддиапазонами на различных разрешениях. Мы представляем экспериментальные результаты с условиями на процесс генерации.
English
In this paper, we take a new approach to autoregressive image generation that
is based on two main ingredients. The first is wavelet image coding, which
allows to tokenize the visual details of an image from coarse to fine details
by ordering the information starting with the most significant bits of the most
significant wavelet coefficients. The second is a variant of a language
transformer whose architecture is re-designed and optimized for token sequences
in this 'wavelet language'. The transformer learns the significant statistical
correlations within a token sequence, which are the manifestations of
well-known correlations between the wavelet subbands at various resolutions. We
show experimental results with conditioning on the generation process.Summary
AI-Generated Summary