Quantification Scalaire Finie : VQ-VAE Simplifié

Résumé

Nous proposons de remplacer la quantification vectorielle (VQ) dans la représentation latente des VQ-VAEs par un schéma simple appelé quantification scalaire finie (FSQ), où nous projetons la représentation du VAE sur quelques dimensions (typiquement moins de 10). Chaque dimension est quantifiée sur un petit ensemble de valeurs fixes, conduisant à un codebook (implicite) donné par le produit de ces ensembles. En choisissant judicieusement le nombre de dimensions et les valeurs que chaque dimension peut prendre, nous obtenons la même taille de codebook que dans la VQ. Sur de telles représentations discrètes, nous pouvons entraîner les mêmes modèles qui ont été entraînés sur les représentations des VQ-VAEs. Par exemple, des modèles autoregressifs et des transformers masqués pour la génération d'images, la génération multimodale et les tâches de vision par ordinateur de prédiction dense. Concrètement, nous utilisons FSQ avec MaskGIT pour la génération d'images, et avec UViM pour l'estimation de profondeur, la colorisation et la segmentation panoptique. Malgré la conception beaucoup plus simple de FSQ, nous obtenons des performances compétitives dans toutes ces tâches. Nous soulignons que FSQ ne souffre pas de l'effondrement du codebook et n'a pas besoin de la machinerie complexe employée dans la VQ (pertes d'engagement, réinitialisation du codebook, division du code, pénalités d'entropie, etc.) pour apprendre des représentations discrètes expressives.

English

We propose to replace vector quantization (VQ) in the latent representation of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where we project the VAE representation down to a few dimensions (typically less than 10). Each dimension is quantized to a small set of fixed values, leading to an (implicit) codebook given by the product of these sets. By appropriately choosing the number of dimensions and values each dimension can take, we obtain the same codebook size as in VQ. On top of such discrete representations, we can train the same models that have been trained on VQ-VAE representations. For example, autoregressive and masked transformer models for image generation, multimodal generation, and dense prediction computer vision tasks. Concretely, we employ FSQ with MaskGIT for image generation, and with UViM for depth estimation, colorization, and panoptic segmentation. Despite the much simpler design of FSQ, we obtain competitive performance in all these tasks. We emphasize that FSQ does not suffer from codebook collapse and does not need the complex machinery employed in VQ (commitment losses, codebook reseeding, code splitting, entropy penalties, etc.) to learn expressive discrete representations.

Quantification Scalaire Finie : VQ-VAE Simplifié

Finite Scalar Quantization: VQ-VAE Made Simple

Résumé

Support