이미지 한 장은 재구성과 생성을 위해 32개의 토큰으로 표현된다
An Image is Worth 32 Tokens for Reconstruction and Generation
June 11, 2024
저자: Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI
초록
최근 생성 모델의 발전은 고해상도 이미지의 효율적인 합성에서 이미지 토큰화의 중요한 역할을 부각시켰습니다. 이미지를 잠재 표현으로 변환하는 토큰화는 픽셀을 직접 처리하는 것에 비해 계산 요구량을 줄이고 생성 과정의 효과성과 효율성을 향상시킵니다. VQGAN과 같은 기존 방법들은 일반적으로 고정된 다운샘플링 비율을 가진 2D 잠재 그리드를 사용합니다. 그러나 이러한 2D 토큰화는 인접한 영역이 자주 유사성을 보이는 이미지의 내재적 중복성을 관리하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 이미지를 1D 잠재 시퀀스로 토큰화하는 혁신적인 접근 방식인 Transformer 기반 1차원 토큰화기(TiTok)를 소개합니다. TiTok은 더 컴팩트한 잠재 표현을 제공하여 기존 기술보다 훨씬 더 효율적이고 효과적인 표현을 가능하게 합니다. 예를 들어, 256 x 256 x 3 이미지는 기존 방법에서 얻은 256 또는 1024 토큰에서 단 32개의 이산 토큰으로 크게 줄어듭니다. TiTok은 컴팩트한 특성에도 불구하고 최신 기술과 경쟁력 있는 성능을 달성합니다. 특히, 동일한 생성기 프레임워크를 사용하여 TiTok은 ImageNet 256 x 256 벤치마크에서 1.97 gFID를 달성하며 MaskGIT 기준선을 4.21만큼 크게 앞섭니다. TiTok의 장점은 더 높은 해상도에서 더욱 두드러집니다. ImageNet 512 x 512 벤치마크에서 TiTok은 최신 확산 모델인 DiT-XL/2(gFID 2.74 대 3.04)를 능가할 뿐만 아니라 이미지 토큰을 64배 줄여 410배 더 빠른 생성 과정을 이끌어냅니다. 우리의 최고 성능 변형은 DiT-XL/2(gFID 2.13 대 3.04)를 크게 능가하면서도 여전히 고품질 샘플을 74배 더 빠르게 생성합니다.
English
Recent advancements in generative models have highlighted the crucial role of
image tokenization in the efficient synthesis of high-resolution images.
Tokenization, which transforms images into latent representations, reduces
computational demands compared to directly processing pixels and enhances the
effectiveness and efficiency of the generation process. Prior methods, such as
VQGAN, typically utilize 2D latent grids with fixed downsampling factors.
However, these 2D tokenizations face challenges in managing the inherent
redundancies present in images, where adjacent regions frequently display
similarities. To overcome this issue, we introduce Transformer-based
1-Dimensional Tokenizer (TiTok), an innovative approach that tokenizes images
into 1D latent sequences. TiTok provides a more compact latent representation,
yielding substantially more efficient and effective representations than
conventional techniques. For example, a 256 x 256 x 3 image can be reduced to
just 32 discrete tokens, a significant reduction from the 256 or 1024 tokens
obtained by prior methods. Despite its compact nature, TiTok achieves
competitive performance to state-of-the-art approaches. Specifically, using the
same generator framework, TiTok attains 1.97 gFID, outperforming MaskGIT
baseline significantly by 4.21 at ImageNet 256 x 256 benchmark. The advantages
of TiTok become even more significant when it comes to higher resolution. At
ImageNet 512 x 512 benchmark, TiTok not only outperforms state-of-the-art
diffusion model DiT-XL/2 (gFID 2.74 vs. 3.04), but also reduces the image
tokens by 64x, leading to 410x faster generation process. Our best-performing
variant can significantly surpasses DiT-XL/2 (gFID 2.13 vs. 3.04) while still
generating high-quality samples 74x faster.Summary
AI-Generated Summary