Una Imagen Vale 32 Tokens para Reconstrucción y Generación
An Image is Worth 32 Tokens for Reconstruction and Generation
June 11, 2024
Autores: Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
Resumen
Los avances recientes en modelos generativos han destacado el papel crucial de la tokenización de imágenes en la síntesis eficiente de imágenes de alta resolución. La tokenización, que transforma las imágenes en representaciones latentes, reduce las demandas computacionales en comparación con el procesamiento directo de píxeles y mejora la efectividad y eficiencia del proceso de generación. Métodos previos, como VQGAN, suelen utilizar cuadrículas latentes 2D con factores de submuestreo fijos. Sin embargo, estas tokenizaciones 2D enfrentan desafíos al gestionar las redundancias inherentes presentes en las imágenes, donde regiones adyacentes frecuentemente muestran similitudes. Para superar este problema, presentamos Transformer-based 1-Dimensional Tokenizer (TiTok), un enfoque innovador que tokeniza imágenes en secuencias latentes 1D. TiTok proporciona una representación latente más compacta, ofreciendo representaciones sustancialmente más eficientes y efectivas que las técnicas convencionales. Por ejemplo, una imagen de 256 x 256 x 3 puede reducirse a solo 32 tokens discretos, una reducción significativa en comparación con los 256 o 1024 tokens obtenidos por métodos previos. A pesar de su naturaleza compacta, TiTok logra un rendimiento competitivo con los enfoques más avanzados. Específicamente, utilizando el mismo marco generador, TiTok alcanza un gFID de 1.97, superando significativamente la línea base de MaskGIT en 4.21 en el benchmark de ImageNet 256 x 256. Las ventajas de TiTok se vuelven aún más significativas en resoluciones más altas. En el benchmark de ImageNet 512 x 512, TiTok no solo supera al modelo de difusión más avanzado DiT-XL/2 (gFID 2.74 vs. 3.04), sino que también reduce los tokens de imagen en 64x, lo que resulta en un proceso de generación 410x más rápido. Nuestra variante de mejor rendimiento supera significativamente a DiT-XL/2 (gFID 2.13 vs. 3.04) mientras sigue generando muestras de alta calidad 74x más rápido.
English
Recent advancements in generative models have highlighted the crucial role of
image tokenization in the efficient synthesis of high-resolution images.
Tokenization, which transforms images into latent representations, reduces
computational demands compared to directly processing pixels and enhances the
effectiveness and efficiency of the generation process. Prior methods, such as
VQGAN, typically utilize 2D latent grids with fixed downsampling factors.
However, these 2D tokenizations face challenges in managing the inherent
redundancies present in images, where adjacent regions frequently display
similarities. To overcome this issue, we introduce Transformer-based
1-Dimensional Tokenizer (TiTok), an innovative approach that tokenizes images
into 1D latent sequences. TiTok provides a more compact latent representation,
yielding substantially more efficient and effective representations than
conventional techniques. For example, a 256 x 256 x 3 image can be reduced to
just 32 discrete tokens, a significant reduction from the 256 or 1024 tokens
obtained by prior methods. Despite its compact nature, TiTok achieves
competitive performance to state-of-the-art approaches. Specifically, using the
same generator framework, TiTok attains 1.97 gFID, outperforming MaskGIT
baseline significantly by 4.21 at ImageNet 256 x 256 benchmark. The advantages
of TiTok become even more significant when it comes to higher resolution. At
ImageNet 512 x 512 benchmark, TiTok not only outperforms state-of-the-art
diffusion model DiT-XL/2 (gFID 2.74 vs. 3.04), but also reduces the image
tokens by 64x, leading to 410x faster generation process. Our best-performing
variant can significantly surpasses DiT-XL/2 (gFID 2.13 vs. 3.04) while still
generating high-quality samples 74x faster.Summary
AI-Generated Summary