Quantização Escalar Finita: VQ-VAE Simplificado
Finite Scalar Quantization: VQ-VAE Made Simple
September 27, 2023
Autores: Fabian Mentzer, David Minnen, Eirikur Agustsson, Michael Tschannen
cs.AI
Resumo
Propomos substituir a quantização vetorial (VQ) na representação latente dos VQ-VAEs por um esquema simples denominado quantização escalar finita (FSQ), no qual projetamos a representação do VAE em algumas dimensões (tipicamente menos de 10). Cada dimensão é quantizada para um pequeno conjunto de valores fixos, resultando em um codebook (implícito) dado pelo produto desses conjuntos. Ao escolher adequadamente o número de dimensões e os valores que cada dimensão pode assumir, obtemos o mesmo tamanho de codebook que na VQ. Sobre tais representações discretas, podemos treinar os mesmos modelos que foram treinados com representações de VQ-VAE. Por exemplo, modelos autoregressivos e transformers mascarados para geração de imagens, geração multimodal e tarefas de visão computacional de predição densa. Concretamente, empregamos FSQ com MaskGIT para geração de imagens e com UViM para estimativa de profundidade, colorização e segmentação panóptica. Apesar do design muito mais simples do FSQ, obtemos desempenho competitivo em todas essas tarefas. Ressaltamos que o FSQ não sofre de colapso do codebook e não precisa da maquinaria complexa empregada na VQ (perdas de comprometimento, redefinição do codebook, divisão de códigos, penalidades de entropia, etc.) para aprender representações discretas expressivas.
English
We propose to replace vector quantization (VQ) in the latent representation
of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where
we project the VAE representation down to a few dimensions (typically less than
10). Each dimension is quantized to a small set of fixed values, leading to an
(implicit) codebook given by the product of these sets. By appropriately
choosing the number of dimensions and values each dimension can take, we obtain
the same codebook size as in VQ. On top of such discrete representations, we
can train the same models that have been trained on VQ-VAE representations. For
example, autoregressive and masked transformer models for image generation,
multimodal generation, and dense prediction computer vision tasks. Concretely,
we employ FSQ with MaskGIT for image generation, and with UViM for depth
estimation, colorization, and panoptic segmentation. Despite the much simpler
design of FSQ, we obtain competitive performance in all these tasks. We
emphasize that FSQ does not suffer from codebook collapse and does not need the
complex machinery employed in VQ (commitment losses, codebook reseeding, code
splitting, entropy penalties, etc.) to learn expressive discrete
representations.