Faktorisierte visuelle Tokenisierung und Generierung
Factorized Visual Tokenization and Generation
November 25, 2024
Autoren: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
cs.AI
Zusammenfassung
Visuelle Tokenizer sind grundlegend für die Bildgenerierung. Sie wandeln visuelle Daten in diskrete Token um, was es Modellen auf Transformer-Basis ermöglicht, bei der Bildgenerierung herausragende Leistungen zu erbringen. Trotz ihres Erfolgs stehen VQ-basierte Tokenizer wie VQGAN vor erheblichen Einschränkungen aufgrund begrenzter Vokabulargrößen. Eine einfache Erweiterung des Codebuchs führt oft zu Trainingsinstabilität und nachlassender Leistungssteigerung, wodurch Skalierbarkeit zu einer entscheidenden Herausforderung wird. In dieser Arbeit stellen wir die faktorisierte Quantisierung (FQ) vor, einen neuartigen Ansatz, der VQ-basierte Tokenizer durch die Zerlegung eines großen Codebuchs in mehrere unabhängige Teilcodebücher revitalisiert. Diese Faktorisierung reduziert die Suchkomplexität großer Codebücher und ermöglicht eine effizientere und skalierbarere visuelle Tokenisierung. Um sicherzustellen, dass jedes Teilcodebuch unterschiedliche und ergänzende Informationen erfasst, schlagen wir eine Entflechtungsregularisierung vor, die Redundanz explizit reduziert und Vielfalt über die Teilcodebücher fördert. Darüber hinaus integrieren wir Repräsentationslernen in den Schulungsprozess, indem wir vortrainierte Visionmodelle wie CLIP und DINO nutzen, um semantische Tiefe in die erlernten Repräsentationen einzubringen. Dieses Design gewährleistet, dass unser Tokenizer vielfältige semantische Ebenen erfasst, was zu ausdrucksstärkeren und entflechteten Repräsentationen führt. Experimente zeigen, dass das vorgeschlagene FQGAN-Modell die Rekonstruktionsqualität von visuellen Tokenizern erheblich verbessert und Spitzenleistungen erzielt. Wir zeigen weiterhin, dass dieser Tokenizer effektiv in die autoregressive Bildgenerierung überführt werden kann. https://showlab.github.io/FQGAN
English
Visual tokenizers are fundamental to image generation. They convert visual
data into discrete tokens, enabling transformer-based models to excel at image
generation. Despite their success, VQ-based tokenizers like VQGAN face
significant limitations due to constrained vocabulary sizes. Simply expanding
the codebook often leads to training instability and diminishing performance
gains, making scalability a critical challenge. In this work, we introduce
Factorized Quantization (FQ), a novel approach that revitalizes VQ-based
tokenizers by decomposing a large codebook into multiple independent
sub-codebooks. This factorization reduces the lookup complexity of large
codebooks, enabling more efficient and scalable visual tokenization. To ensure
each sub-codebook captures distinct and complementary information, we propose a
disentanglement regularization that explicitly reduces redundancy, promoting
diversity across the sub-codebooks. Furthermore, we integrate representation
learning into the training process, leveraging pretrained vision models like
CLIP and DINO to infuse semantic richness into the learned representations.
This design ensures our tokenizer captures diverse semantic levels, leading to
more expressive and disentangled representations. Experiments show that the
proposed FQGAN model substantially improves the reconstruction quality of
visual tokenizers, achieving state-of-the-art performance. We further
demonstrate that this tokenizer can be effectively adapted into auto-regressive
image generation. https://showlab.github.io/FQGANSummary
AI-Generated Summary