Une image vaut 32 tokens pour la reconstruction et la génération
An Image is Worth 32 Tokens for Reconstruction and Generation
June 11, 2024
Auteurs: Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
Résumé
Les récents progrès dans les modèles génératifs ont mis en lumière le rôle crucial de la tokenisation d'images dans la synthèse efficace d'images haute résolution. La tokenisation, qui transforme les images en représentations latentes, réduit les exigences computationnelles par rapport au traitement direct des pixels et améliore l'efficacité et l'efficience du processus de génération. Les méthodes précédentes, comme VQGAN, utilisent généralement des grilles latentes 2D avec des facteurs de sous-échantillonnage fixes. Cependant, ces tokenisations 2D rencontrent des difficultés à gérer les redondances inhérentes aux images, où les régions adjacentes présentent fréquemment des similitudes. Pour surmonter ce problème, nous introduisons le Transformer-based 1-Dimensional Tokenizer (TiTok), une approche innovante qui tokenise les images en séquences latentes 1D. TiTok fournit une représentation latente plus compacte, offrant des représentations nettement plus efficaces et efficientes que les techniques conventionnelles. Par exemple, une image de 256 x 256 x 3 peut être réduite à seulement 32 tokens discrets, une réduction significative par rapport aux 256 ou 1024 tokens obtenus par les méthodes précédentes. Malgré sa nature compacte, TiTok atteint des performances compétitives par rapport aux approches de pointe. Plus précisément, en utilisant le même cadre de générateur, TiTok atteint un gFID de 1,97, surpassant significativement le modèle de référence MaskGIT de 4,21 au benchmark ImageNet 256 x 256. Les avantages de TiTok deviennent encore plus significatifs lorsqu'il s'agit de résolutions plus élevées. Au benchmark ImageNet 512 x 512, TiTok non seulement surpasse le modèle de diffusion de pointe DiT-XL/2 (gFID 2,74 contre 3,04), mais réduit également les tokens d'image par un facteur de 64, conduisant à un processus de génération 410 fois plus rapide. Notre variante la plus performante peut surpasser significativement DiT-XL/2 (gFID 2,13 contre 3,04) tout en générant des échantillons de haute qualité 74 fois plus rapidement.
English
Recent advancements in generative models have highlighted the crucial role of
image tokenization in the efficient synthesis of high-resolution images.
Tokenization, which transforms images into latent representations, reduces
computational demands compared to directly processing pixels and enhances the
effectiveness and efficiency of the generation process. Prior methods, such as
VQGAN, typically utilize 2D latent grids with fixed downsampling factors.
However, these 2D tokenizations face challenges in managing the inherent
redundancies present in images, where adjacent regions frequently display
similarities. To overcome this issue, we introduce Transformer-based
1-Dimensional Tokenizer (TiTok), an innovative approach that tokenizes images
into 1D latent sequences. TiTok provides a more compact latent representation,
yielding substantially more efficient and effective representations than
conventional techniques. For example, a 256 x 256 x 3 image can be reduced to
just 32 discrete tokens, a significant reduction from the 256 or 1024 tokens
obtained by prior methods. Despite its compact nature, TiTok achieves
competitive performance to state-of-the-art approaches. Specifically, using the
same generator framework, TiTok attains 1.97 gFID, outperforming MaskGIT
baseline significantly by 4.21 at ImageNet 256 x 256 benchmark. The advantages
of TiTok become even more significant when it comes to higher resolution. At
ImageNet 512 x 512 benchmark, TiTok not only outperforms state-of-the-art
diffusion model DiT-XL/2 (gFID 2.74 vs. 3.04), but also reduces the image
tokens by 64x, leading to 410x faster generation process. Our best-performing
variant can significantly surpasses DiT-XL/2 (gFID 2.13 vs. 3.04) while still
generating high-quality samples 74x faster.Summary
AI-Generated Summary