ChatPaper.aiChatPaper

Изображение стоит 32 токена для восстановления и генерации.

An Image is Worth 32 Tokens for Reconstruction and Generation

June 11, 2024
Авторы: Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI

Аннотация

Недавние достижения в области генеративных моделей подчеркнули ключевую роль токенизации изображений в эффективном синтезе изображений высокого разрешения. Токенизация, которая преобразует изображения в латентные представления, снижает вычислительные затраты по сравнению с прямой обработкой пикселей и улучшает эффективность и эффективность процесса генерации. Предыдущие методы, такие как VQGAN, обычно используют 2D латентные сетки с фиксированными коэффициентами понижения дискретизации. Однако эти 2D токенизации сталкиваются с проблемами в управлении встроенными избыточностями, присутствующими в изображениях, где смежные области часто проявляют сходства. Для преодоления этой проблемы мы представляем трансформерную 1-мерную токенизатор (TiTok), инновационный подход, который токенизирует изображения в 1D латентные последовательности. TiTok обеспечивает более компактное латентное представление, обеспечивая значительно более эффективные и эффективные представления, чем традиционные техники. Например, изображение размером 256 x 256 x 3 может быть сокращено всего до 32 дискретных токенов, что значительно меньше, чем 256 или 1024 токена, полученных предыдущими методами. Несмотря на свою компактность, TiTok достигает конкурентоспособной производительности по сравнению с передовыми подходами. Конкретно, используя ту же структуру генератора, TiTok достигает 1,97 gFID, превосходя базовую модель MaskGIT значительно на 4,21 в тесте ImageNet 256 x 256. Преимущества TiTok становятся еще более значительными, когда речь идет о более высоком разрешении. В тесте ImageNet 512 x 512 TiTok не только превосходит передовую модель диффузии DiT-XL/2 (gFID 2,74 против 3,04), но также сокращает токены изображения в 64 раза, что приводит к ускорению процесса генерации в 410 раз. Наша наиболее эффективная вариация значительно превосходит DiT-XL/2 (gFID 2,13 против 3,04), сохраняя при этом возможность генерировать высококачественные образцы в 74 раза быстрее.
English
Recent advancements in generative models have highlighted the crucial role of image tokenization in the efficient synthesis of high-resolution images. Tokenization, which transforms images into latent representations, reduces computational demands compared to directly processing pixels and enhances the effectiveness and efficiency of the generation process. Prior methods, such as VQGAN, typically utilize 2D latent grids with fixed downsampling factors. However, these 2D tokenizations face challenges in managing the inherent redundancies present in images, where adjacent regions frequently display similarities. To overcome this issue, we introduce Transformer-based 1-Dimensional Tokenizer (TiTok), an innovative approach that tokenizes images into 1D latent sequences. TiTok provides a more compact latent representation, yielding substantially more efficient and effective representations than conventional techniques. For example, a 256 x 256 x 3 image can be reduced to just 32 discrete tokens, a significant reduction from the 256 or 1024 tokens obtained by prior methods. Despite its compact nature, TiTok achieves competitive performance to state-of-the-art approaches. Specifically, using the same generator framework, TiTok attains 1.97 gFID, outperforming MaskGIT baseline significantly by 4.21 at ImageNet 256 x 256 benchmark. The advantages of TiTok become even more significant when it comes to higher resolution. At ImageNet 512 x 512 benchmark, TiTok not only outperforms state-of-the-art diffusion model DiT-XL/2 (gFID 2.74 vs. 3.04), but also reduces the image tokens by 64x, leading to 410x faster generation process. Our best-performing variant can significantly surpasses DiT-XL/2 (gFID 2.13 vs. 3.04) while still generating high-quality samples 74x faster.

Summary

AI-Generated Summary

PDF6020December 8, 2024