Tokenisation visuelle factorisée et génération
Factorized Visual Tokenization and Generation
November 25, 2024
Auteurs: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
cs.AI
Résumé
Les tokenizers visuels sont fondamentaux pour la génération d'images. Ils convertissent les données visuelles en jetons discrets, permettant aux modèles basés sur les transformateurs d'exceller dans la génération d'images. Malgré leur succès, les tokenizers basés sur VQ tels que VQGAN rencontrent des limitations significatives en raison de tailles de vocabulaire restreintes. Étendre simplement le codebook conduit souvent à une instabilité d'entraînement et à des gains de performance décroissants, rendant la scalabilité un défi critique. Dans ce travail, nous introduisons la Quantification Factorisée (FQ), une approche novatrice qui revitalise les tokenizers basés sur VQ en décomposant un grand codebook en plusieurs sous-codebooks indépendants. Cette factorisation réduit la complexité de recherche des grands codebooks, permettant une tokenisation visuelle plus efficace et évolutive. Pour garantir que chaque sous-codebook capture des informations distinctes et complémentaires, nous proposons une régularisation de la désentrelacement qui réduit explicitement la redondance, favorisant la diversité à travers les sous-codebooks. De plus, nous intégrons l'apprentissage de représentation dans le processus d'entraînement, en tirant parti des modèles de vision pré-entraînés tels que CLIP et DINO pour infuser une richesse sémantique dans les représentations apprises. Cette conception garantit que notre tokenizer capture divers niveaux sémantiques, conduisant à des représentations plus expressives et désentrelacées. Les expériences montrent que le modèle FQGAN proposé améliore considérablement la qualité de reconstruction des tokenizers visuels, atteignant des performances de pointe. Nous démontrons en outre que ce tokenizer peut être efficacement adapté à la génération d'images auto-régressive. https://showlab.github.io/FQGAN
English
Visual tokenizers are fundamental to image generation. They convert visual
data into discrete tokens, enabling transformer-based models to excel at image
generation. Despite their success, VQ-based tokenizers like VQGAN face
significant limitations due to constrained vocabulary sizes. Simply expanding
the codebook often leads to training instability and diminishing performance
gains, making scalability a critical challenge. In this work, we introduce
Factorized Quantization (FQ), a novel approach that revitalizes VQ-based
tokenizers by decomposing a large codebook into multiple independent
sub-codebooks. This factorization reduces the lookup complexity of large
codebooks, enabling more efficient and scalable visual tokenization. To ensure
each sub-codebook captures distinct and complementary information, we propose a
disentanglement regularization that explicitly reduces redundancy, promoting
diversity across the sub-codebooks. Furthermore, we integrate representation
learning into the training process, leveraging pretrained vision models like
CLIP and DINO to infuse semantic richness into the learned representations.
This design ensures our tokenizer captures diverse semantic levels, leading to
more expressive and disentangled representations. Experiments show that the
proposed FQGAN model substantially improves the reconstruction quality of
visual tokenizers, achieving state-of-the-art performance. We further
demonstrate that this tokenizer can be effectively adapted into auto-regressive
image generation. https://showlab.github.io/FQGANSummary
AI-Generated Summary