1枚の画像は再構成と生成において32トークンに相当する
An Image is Worth 32 Tokens for Reconstruction and Generation
June 11, 2024
著者: Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
要旨
近年の生成モデルの進展により、高解像度画像の効率的な合成における画像トークン化の重要性が強調されています。トークン化は、画像を潜在表現に変換することで、ピクセルを直接処理する場合と比較して計算負荷を軽減し、生成プロセスの効果性と効率性を向上させます。従来の手法、例えばVQGANでは、固定のダウンサンプリング係数を持つ2次元潜在グリッドを利用することが一般的です。しかし、これらの2次元トークン化は、画像に内在する冗長性を管理する上で課題に直面しています。隣接する領域が頻繁に類似性を示すためです。この問題を克服するため、我々はTransformerベースの1次元トークナイザ(TiTok)を提案します。TiTokは、画像を1次元潜在シーケンスにトークン化する革新的なアプローチであり、従来の手法よりも大幅に効率的で効果的な表現を提供します。例えば、256 x 256 x 3の画像は、従来の手法で得られる256または1024トークンから、わずか32の離散トークンに削減されます。TiTokはそのコンパクトさにもかかわらず、最先端の手法と競争力のある性能を達成します。具体的には、同じジェネレータフレームワークを使用して、TiTokは1.97 gFIDを達成し、ImageNet 256 x 256ベンチマークにおいてMaskGITベースラインを4.21ポイント上回ります。TiTokの利点は、より高解像度の場合にさらに顕著になります。ImageNet 512 x 512ベンチマークでは、TiTokは最先端の拡散モデルDiT-XL/2(gFID 2.74 vs. 3.04)を上回るだけでなく、画像トークンを64倍削減し、生成プロセスを410倍高速化します。我々の最高性能のバリアントは、DiT-XL/2(gFID 2.13 vs. 3.04)を大幅に上回りながら、高品質なサンプルを74倍高速に生成することができます。
English
Recent advancements in generative models have highlighted the crucial role of
image tokenization in the efficient synthesis of high-resolution images.
Tokenization, which transforms images into latent representations, reduces
computational demands compared to directly processing pixels and enhances the
effectiveness and efficiency of the generation process. Prior methods, such as
VQGAN, typically utilize 2D latent grids with fixed downsampling factors.
However, these 2D tokenizations face challenges in managing the inherent
redundancies present in images, where adjacent regions frequently display
similarities. To overcome this issue, we introduce Transformer-based
1-Dimensional Tokenizer (TiTok), an innovative approach that tokenizes images
into 1D latent sequences. TiTok provides a more compact latent representation,
yielding substantially more efficient and effective representations than
conventional techniques. For example, a 256 x 256 x 3 image can be reduced to
just 32 discrete tokens, a significant reduction from the 256 or 1024 tokens
obtained by prior methods. Despite its compact nature, TiTok achieves
competitive performance to state-of-the-art approaches. Specifically, using the
same generator framework, TiTok attains 1.97 gFID, outperforming MaskGIT
baseline significantly by 4.21 at ImageNet 256 x 256 benchmark. The advantages
of TiTok become even more significant when it comes to higher resolution. At
ImageNet 512 x 512 benchmark, TiTok not only outperforms state-of-the-art
diffusion model DiT-XL/2 (gFID 2.74 vs. 3.04), but also reduces the image
tokens by 64x, leading to 410x faster generation process. Our best-performing
variant can significantly surpasses DiT-XL/2 (gFID 2.13 vs. 3.04) while still
generating high-quality samples 74x faster.Summary
AI-Generated Summary