Tokenisation visuelle factorisée et génération

papers.abstract

Les tokenizers visuels sont fondamentaux pour la génération d'images. Ils convertissent les données visuelles en jetons discrets, permettant aux modèles basés sur les transformateurs d'exceller dans la génération d'images. Malgré leur succès, les tokenizers basés sur VQ tels que VQGAN rencontrent des limitations significatives en raison de tailles de vocabulaire restreintes. Étendre simplement le codebook conduit souvent à une instabilité d'entraînement et à des gains de performance décroissants, rendant la scalabilité un défi critique. Dans ce travail, nous introduisons la Quantification Factorisée (FQ), une approche novatrice qui revitalise les tokenizers basés sur VQ en décomposant un grand codebook en plusieurs sous-codebooks indépendants. Cette factorisation réduit la complexité de recherche des grands codebooks, permettant une tokenisation visuelle plus efficace et évolutive. Pour garantir que chaque sous-codebook capture des informations distinctes et complémentaires, nous proposons une régularisation de la désentrelacement qui réduit explicitement la redondance, favorisant la diversité à travers les sous-codebooks. De plus, nous intégrons l'apprentissage de représentation dans le processus d'entraînement, en tirant parti des modèles de vision pré-entraînés tels que CLIP et DINO pour infuser une richesse sémantique dans les représentations apprises. Cette conception garantit que notre tokenizer capture divers niveaux sémantiques, conduisant à des représentations plus expressives et désentrelacées. Les expériences montrent que le modèle FQGAN proposé améliore considérablement la qualité de reconstruction des tokenizers visuels, atteignant des performances de pointe. Nous démontrons en outre que ce tokenizer peut être efficacement adapté à la génération d'images auto-régressive. https://showlab.github.io/FQGAN

English

Visual tokenizers are fundamental to image generation. They convert visual data into discrete tokens, enabling transformer-based models to excel at image generation. Despite their success, VQ-based tokenizers like VQGAN face significant limitations due to constrained vocabulary sizes. Simply expanding the codebook often leads to training instability and diminishing performance gains, making scalability a critical challenge. In this work, we introduce Factorized Quantization (FQ), a novel approach that revitalizes VQ-based tokenizers by decomposing a large codebook into multiple independent sub-codebooks. This factorization reduces the lookup complexity of large codebooks, enabling more efficient and scalable visual tokenization. To ensure each sub-codebook captures distinct and complementary information, we propose a disentanglement regularization that explicitly reduces redundancy, promoting diversity across the sub-codebooks. Furthermore, we integrate representation learning into the training process, leveraging pretrained vision models like CLIP and DINO to infuse semantic richness into the learned representations. This design ensures our tokenizer captures diverse semantic levels, leading to more expressive and disentangled representations. Experiments show that the proposed FQGAN model substantially improves the reconstruction quality of visual tokenizers, achieving state-of-the-art performance. We further demonstrate that this tokenizer can be effectively adapted into auto-regressive image generation. https://showlab.github.io/FQGAN

Tokenisation visuelle factorisée et génération

Factorized Visual Tokenization and Generation

papers.abstract

Support