ウェーブレットこそが自己回帰的画像生成に必要なすべてである
Wavelets Are All You Need for Autoregressive Image Generation
June 28, 2024
著者: Wael Mattar, Idan Levy, Nir Sharon, Shai Dekel
cs.AI
要旨
本論文では、自己回帰型画像生成に対して新しいアプローチを提案する。このアプローチは2つの主要な要素に基づいている。第一に、ウェーブレット画像符号化を用いることで、最も重要なウェーブレット係数の最上位ビットから始まる情報の順序付けにより、粗い詳細から細かい詳細まで画像の視覚的特徴をトークン化することが可能となる。第二に、この「ウェーブレット言語」におけるトークン列に最適化され、アーキテクチャが再設計された言語トランスフォーマーの変種を用いる。このトランスフォーマーは、トークン列内の重要な統計的相関関係を学習する。これらの相関関係は、様々な解像度におけるウェーブレットサブバンド間のよく知られた相関関係の現れである。生成プロセスにおける条件付けを用いた実験結果を示す。
English
In this paper, we take a new approach to autoregressive image generation that
is based on two main ingredients. The first is wavelet image coding, which
allows to tokenize the visual details of an image from coarse to fine details
by ordering the information starting with the most significant bits of the most
significant wavelet coefficients. The second is a variant of a language
transformer whose architecture is re-designed and optimized for token sequences
in this 'wavelet language'. The transformer learns the significant statistical
correlations within a token sequence, which are the manifestations of
well-known correlations between the wavelet subbands at various resolutions. We
show experimental results with conditioning on the generation process.Summary
AI-Generated Summary