ChatPaper.aiChatPaper

Ein Bild ist 32 Token wert für Rekonstruktion und Generierung.

An Image is Worth 32 Tokens for Reconstruction and Generation

June 11, 2024
Autoren: Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
cs.AI

Zusammenfassung

Die jüngsten Fortschritte in generativen Modellen haben die entscheidende Rolle der Bildtokenisierung bei der effizienten Synthese von hochauflösenden Bildern hervorgehoben. Die Tokenisierung, die Bilder in latente Repräsentationen umwandelt, verringert den Rechenaufwand im Vergleich zur direkten Verarbeitung von Pixeln und verbessert die Effektivität und Effizienz des Generierungsprozesses. Frühere Methoden wie VQGAN nutzen in der Regel 2D-latente Raster mit festen Downsampling-Faktoren. Diese 2D-Tokenisierungen stehen jedoch vor Herausforderungen bei der Verwaltung der inhärenten Redundanzen in Bildern, bei denen benachbarte Regionen häufig Ähnlichkeiten aufweisen. Um dieses Problem zu überwinden, stellen wir den Transformer-basierten 1-Dimensional Tokenizer (TiTok) vor, einen innovativen Ansatz, der Bilder in 1D-latente Sequenzen tokenisiert. TiTok bietet eine kompaktere latente Repräsentation, die wesentlich effizientere und effektivere Repräsentationen als herkömmliche Techniken liefert. Beispielsweise kann ein Bild mit der Größe 256 x 256 x 3 auf nur 32 diskrete Tokens reduziert werden, was im Vergleich zu den 256 oder 1024 Tokens, die mit früheren Methoden erhalten wurden, eine signifikante Reduzierung darstellt. Trotz seiner kompakten Natur erreicht TiTok eine wettbewerbsfähige Leistung im Vergleich zu State-of-the-Art-Ansätzen. Speziell unter Verwendung des gleichen Generator-Frameworks erreicht TiTok einen gFID-Wert von 1,97 und übertrifft damit den MaskGIT-Basislinienwert signifikant um 4,21 beim ImageNet 256 x 256 Benchmark. Die Vorteile von TiTok werden noch signifikanter, wenn es um höhere Auflösungen geht. Beim ImageNet 512 x 512 Benchmark übertrifft TiTok nicht nur das State-of-the-Art-Diffusionsmodell DiT-XL/2 (gFID 2,74 vs. 3,04), sondern reduziert auch die Bildtokens um das 64-fache, was zu einem 410-fach schnelleren Generierungsprozess führt. Unsere leistungsstärkste Variante kann DiT-XL/2 signifikant übertreffen (gFID 2,13 vs. 3,04), während sie immer noch 74-fach schneller hochwertige Proben generiert.
English
Recent advancements in generative models have highlighted the crucial role of image tokenization in the efficient synthesis of high-resolution images. Tokenization, which transforms images into latent representations, reduces computational demands compared to directly processing pixels and enhances the effectiveness and efficiency of the generation process. Prior methods, such as VQGAN, typically utilize 2D latent grids with fixed downsampling factors. However, these 2D tokenizations face challenges in managing the inherent redundancies present in images, where adjacent regions frequently display similarities. To overcome this issue, we introduce Transformer-based 1-Dimensional Tokenizer (TiTok), an innovative approach that tokenizes images into 1D latent sequences. TiTok provides a more compact latent representation, yielding substantially more efficient and effective representations than conventional techniques. For example, a 256 x 256 x 3 image can be reduced to just 32 discrete tokens, a significant reduction from the 256 or 1024 tokens obtained by prior methods. Despite its compact nature, TiTok achieves competitive performance to state-of-the-art approaches. Specifically, using the same generator framework, TiTok attains 1.97 gFID, outperforming MaskGIT baseline significantly by 4.21 at ImageNet 256 x 256 benchmark. The advantages of TiTok become even more significant when it comes to higher resolution. At ImageNet 512 x 512 benchmark, TiTok not only outperforms state-of-the-art diffusion model DiT-XL/2 (gFID 2.74 vs. 3.04), but also reduces the image tokens by 64x, leading to 410x faster generation process. Our best-performing variant can significantly surpasses DiT-XL/2 (gFID 2.13 vs. 3.04) while still generating high-quality samples 74x faster.

Summary

AI-Generated Summary

PDF6020December 8, 2024