Tokenização Visual Fatorizada e Geração
Factorized Visual Tokenization and Generation
November 25, 2024
Autores: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
cs.AI
Resumo
Os tokenizadores visuais são fundamentais para a geração de imagens. Eles convertem dados visuais em tokens discretos, permitindo que modelos baseados em transformadores se destaquem na geração de imagens. Apesar de seu sucesso, os tokenizadores baseados em VQ, como o VQGAN, enfrentam limitações significativas devido aos tamanhos de vocabulário restritos. Simplesmente expandir o livro de códigos frequentemente leva a instabilidade no treinamento e diminuição no desempenho, tornando a escalabilidade um desafio crítico. Neste trabalho, introduzimos a Quantização Fatorizada (FQ), uma abordagem inovadora que revitaliza os tokenizadores baseados em VQ, decompondo um grande livro de códigos em múltiplos sub-livros de códigos independentes. Essa fatorização reduz a complexidade de busca de grandes livros de códigos, possibilitando uma tokenização visual mais eficiente e escalável. Para garantir que cada sub-livro de códigos capture informações distintas e complementares, propomos uma regularização de desemaranhamento que reduz explicitamente a redundância, promovendo diversidade entre os sub-livros de códigos. Além disso, integramos o aprendizado de representação ao processo de treinamento, aproveitando modelos de visão pré-treinados como CLIP e DINO para infundir riqueza semântica nas representações aprendidas. Esse design garante que nosso tokenizador capture diversos níveis semânticos, resultando em representações mais expressivas e desemaranhadas. Experimentos mostram que o modelo FQGAN proposto melhora substancialmente a qualidade de reconstrução dos tokenizadores visuais, alcançando um desempenho de ponta. Demonstramos ainda que este tokenizador pode ser efetivamente adaptado para a geração de imagens auto-regressiva. https://showlab.github.io/FQGAN
English
Visual tokenizers are fundamental to image generation. They convert visual
data into discrete tokens, enabling transformer-based models to excel at image
generation. Despite their success, VQ-based tokenizers like VQGAN face
significant limitations due to constrained vocabulary sizes. Simply expanding
the codebook often leads to training instability and diminishing performance
gains, making scalability a critical challenge. In this work, we introduce
Factorized Quantization (FQ), a novel approach that revitalizes VQ-based
tokenizers by decomposing a large codebook into multiple independent
sub-codebooks. This factorization reduces the lookup complexity of large
codebooks, enabling more efficient and scalable visual tokenization. To ensure
each sub-codebook captures distinct and complementary information, we propose a
disentanglement regularization that explicitly reduces redundancy, promoting
diversity across the sub-codebooks. Furthermore, we integrate representation
learning into the training process, leveraging pretrained vision models like
CLIP and DINO to infuse semantic richness into the learned representations.
This design ensures our tokenizer captures diverse semantic levels, leading to
more expressive and disentangled representations. Experiments show that the
proposed FQGAN model substantially improves the reconstruction quality of
visual tokenizers, achieving state-of-the-art performance. We further
demonstrate that this tokenizer can be effectively adapted into auto-regressive
image generation. https://showlab.github.io/FQGANSummary
AI-Generated Summary