ChatPaper.aiChatPaper

Faktorisierte visuelle Tokenisierung und Generierung

Factorized Visual Tokenization and Generation

November 25, 2024
Autoren: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
cs.AI

Zusammenfassung

Visuelle Tokenizer sind grundlegend für die Bildgenerierung. Sie wandeln visuelle Daten in diskrete Token um, was es Modellen auf Transformer-Basis ermöglicht, bei der Bildgenerierung herausragende Leistungen zu erbringen. Trotz ihres Erfolgs stehen VQ-basierte Tokenizer wie VQGAN vor erheblichen Einschränkungen aufgrund begrenzter Vokabulargrößen. Eine einfache Erweiterung des Codebuchs führt oft zu Trainingsinstabilität und nachlassender Leistungssteigerung, wodurch Skalierbarkeit zu einer entscheidenden Herausforderung wird. In dieser Arbeit stellen wir die faktorisierte Quantisierung (FQ) vor, einen neuartigen Ansatz, der VQ-basierte Tokenizer durch die Zerlegung eines großen Codebuchs in mehrere unabhängige Teilcodebücher revitalisiert. Diese Faktorisierung reduziert die Suchkomplexität großer Codebücher und ermöglicht eine effizientere und skalierbarere visuelle Tokenisierung. Um sicherzustellen, dass jedes Teilcodebuch unterschiedliche und ergänzende Informationen erfasst, schlagen wir eine Entflechtungsregularisierung vor, die Redundanz explizit reduziert und Vielfalt über die Teilcodebücher fördert. Darüber hinaus integrieren wir Repräsentationslernen in den Schulungsprozess, indem wir vortrainierte Visionmodelle wie CLIP und DINO nutzen, um semantische Tiefe in die erlernten Repräsentationen einzubringen. Dieses Design gewährleistet, dass unser Tokenizer vielfältige semantische Ebenen erfasst, was zu ausdrucksstärkeren und entflechteten Repräsentationen führt. Experimente zeigen, dass das vorgeschlagene FQGAN-Modell die Rekonstruktionsqualität von visuellen Tokenizern erheblich verbessert und Spitzenleistungen erzielt. Wir zeigen weiterhin, dass dieser Tokenizer effektiv in die autoregressive Bildgenerierung überführt werden kann. https://showlab.github.io/FQGAN
English
Visual tokenizers are fundamental to image generation. They convert visual data into discrete tokens, enabling transformer-based models to excel at image generation. Despite their success, VQ-based tokenizers like VQGAN face significant limitations due to constrained vocabulary sizes. Simply expanding the codebook often leads to training instability and diminishing performance gains, making scalability a critical challenge. In this work, we introduce Factorized Quantization (FQ), a novel approach that revitalizes VQ-based tokenizers by decomposing a large codebook into multiple independent sub-codebooks. This factorization reduces the lookup complexity of large codebooks, enabling more efficient and scalable visual tokenization. To ensure each sub-codebook captures distinct and complementary information, we propose a disentanglement regularization that explicitly reduces redundancy, promoting diversity across the sub-codebooks. Furthermore, we integrate representation learning into the training process, leveraging pretrained vision models like CLIP and DINO to infuse semantic richness into the learned representations. This design ensures our tokenizer captures diverse semantic levels, leading to more expressive and disentangled representations. Experiments show that the proposed FQGAN model substantially improves the reconstruction quality of visual tokenizers, achieving state-of-the-art performance. We further demonstrate that this tokenizer can be effectively adapted into auto-regressive image generation. https://showlab.github.io/FQGAN

Summary

AI-Generated Summary

PDF192November 26, 2024