ChatPaper.aiChatPaper

Gevisualiseerde Tokenisering en Generatie door Factorisatie

Factorized Visual Tokenization and Generation

November 25, 2024
Auteurs: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
cs.AI

Samenvatting

Visuele tokenizers zijn fundamenteel voor beeldgeneratie. Ze zetten visuele gegevens om in discrete tokens, waardoor op transformer gebaseerde modellen uitblinken in beeldgeneratie. Ondanks hun succes worden VQ-gebaseerde tokenizers zoals VQGAN geconfronteerd met aanzienlijke beperkingen vanwege beperkte woordenschatgroottes. Het eenvoudigweg uitbreiden van de codeboek leidt vaak tot trainingsinstabiliteit en afnemende prestatiewinsten, waardoor schaalbaarheid een kritische uitdaging wordt. In dit werk introduceren we Factorized Quantization (FQ), een nieuw benadering die VQ-gebaseerde tokenizers nieuw leven inblaast door een groot codeboek op te delen in meerdere onafhankelijke sub-codeboeken. Deze factorisatie vermindert de opzoekcomplexiteit van grote codeboeken, waardoor meer efficiënte en schaalbare visuele tokenisatie mogelijk wordt. Om ervoor te zorgen dat elk sub-codeboek onderscheidende en complementaire informatie vastlegt, stellen we een ontvlechtingsregularisatie voor die expliciet redundantie vermindert en diversiteit bevordert over de sub-codeboeken. Bovendien integreren we representatie-leren in het trainingsproces, waarbij gebruik wordt gemaakt van vooraf getrainde vision-modellen zoals CLIP en DINO om semantische rijkdom in de geleerde representaties te injecteren. Deze opzet zorgt ervoor dat onze tokenizer diverse semantische niveaus vastlegt, wat leidt tot meer expressieve en ontvlochten representaties. Experimenten tonen aan dat het voorgestelde FQGAN-model aanzienlijk de reconstructiekwaliteit van visuele tokenizers verbetert en state-of-the-art prestaties behaalt. We tonen verder aan dat deze tokenizer effectief kan worden aangepast voor autoregressieve beeldgeneratie. https://showlab.github.io/FQGAN
English
Visual tokenizers are fundamental to image generation. They convert visual data into discrete tokens, enabling transformer-based models to excel at image generation. Despite their success, VQ-based tokenizers like VQGAN face significant limitations due to constrained vocabulary sizes. Simply expanding the codebook often leads to training instability and diminishing performance gains, making scalability a critical challenge. In this work, we introduce Factorized Quantization (FQ), a novel approach that revitalizes VQ-based tokenizers by decomposing a large codebook into multiple independent sub-codebooks. This factorization reduces the lookup complexity of large codebooks, enabling more efficient and scalable visual tokenization. To ensure each sub-codebook captures distinct and complementary information, we propose a disentanglement regularization that explicitly reduces redundancy, promoting diversity across the sub-codebooks. Furthermore, we integrate representation learning into the training process, leveraging pretrained vision models like CLIP and DINO to infuse semantic richness into the learned representations. This design ensures our tokenizer captures diverse semantic levels, leading to more expressive and disentangled representations. Experiments show that the proposed FQGAN model substantially improves the reconstruction quality of visual tokenizers, achieving state-of-the-art performance. We further demonstrate that this tokenizer can be effectively adapted into auto-regressive image generation. https://showlab.github.io/FQGAN

Summary

AI-Generated Summary

PDF192November 26, 2024