Tokenização Visual Fatorizada e Geração

Resumo

Os tokenizadores visuais são fundamentais para a geração de imagens. Eles convertem dados visuais em tokens discretos, permitindo que modelos baseados em transformadores se destaquem na geração de imagens. Apesar de seu sucesso, os tokenizadores baseados em VQ, como o VQGAN, enfrentam limitações significativas devido aos tamanhos de vocabulário restritos. Simplesmente expandir o livro de códigos frequentemente leva a instabilidade no treinamento e diminuição no desempenho, tornando a escalabilidade um desafio crítico. Neste trabalho, introduzimos a Quantização Fatorizada (FQ), uma abordagem inovadora que revitaliza os tokenizadores baseados em VQ, decompondo um grande livro de códigos em múltiplos sub-livros de códigos independentes. Essa fatorização reduz a complexidade de busca de grandes livros de códigos, possibilitando uma tokenização visual mais eficiente e escalável. Para garantir que cada sub-livro de códigos capture informações distintas e complementares, propomos uma regularização de desemaranhamento que reduz explicitamente a redundância, promovendo diversidade entre os sub-livros de códigos. Além disso, integramos o aprendizado de representação ao processo de treinamento, aproveitando modelos de visão pré-treinados como CLIP e DINO para infundir riqueza semântica nas representações aprendidas. Esse design garante que nosso tokenizador capture diversos níveis semânticos, resultando em representações mais expressivas e desemaranhadas. Experimentos mostram que o modelo FQGAN proposto melhora substancialmente a qualidade de reconstrução dos tokenizadores visuais, alcançando um desempenho de ponta. Demonstramos ainda que este tokenizador pode ser efetivamente adaptado para a geração de imagens auto-regressiva. https://showlab.github.io/FQGAN

English

Visual tokenizers are fundamental to image generation. They convert visual data into discrete tokens, enabling transformer-based models to excel at image generation. Despite their success, VQ-based tokenizers like VQGAN face significant limitations due to constrained vocabulary sizes. Simply expanding the codebook often leads to training instability and diminishing performance gains, making scalability a critical challenge. In this work, we introduce Factorized Quantization (FQ), a novel approach that revitalizes VQ-based tokenizers by decomposing a large codebook into multiple independent sub-codebooks. This factorization reduces the lookup complexity of large codebooks, enabling more efficient and scalable visual tokenization. To ensure each sub-codebook captures distinct and complementary information, we propose a disentanglement regularization that explicitly reduces redundancy, promoting diversity across the sub-codebooks. Furthermore, we integrate representation learning into the training process, leveraging pretrained vision models like CLIP and DINO to infuse semantic richness into the learned representations. This design ensures our tokenizer captures diverse semantic levels, leading to more expressive and disentangled representations. Experiments show that the proposed FQGAN model substantially improves the reconstruction quality of visual tokenizers, achieving state-of-the-art performance. We further demonstrate that this tokenizer can be effectively adapted into auto-regressive image generation. https://showlab.github.io/FQGAN

Tokenização Visual Fatorizada e Geração

Factorized Visual Tokenization and Generation

Resumo

Support