Quantizzazione Scalare Finita: VQ-VAE Semplificato

Abstract

Proponiamo di sostituire la quantizzazione vettoriale (VQ) nella rappresentazione latente dei VQ-VAE con uno schema semplice denominato quantizzazione scalare finita (FSQ), in cui proiettiamo la rappresentazione del VAE su poche dimensioni (tipicamente meno di 10). Ogni dimensione viene quantizzata in un piccolo insieme di valori fissi, portando a un codebook (implicito) dato dal prodotto di questi insiemi. Scegliendo opportunamente il numero di dimensioni e i valori che ciascuna dimensione può assumere, otteniamo la stessa dimensione del codebook presente nella VQ. Su tali rappresentazioni discrete, possiamo addestrare gli stessi modelli che sono stati addestrati sulle rappresentazioni dei VQ-VAE. Ad esempio, modelli autoregressivi e transformer mascherati per la generazione di immagini, la generazione multimodale e le attività di visione artificiale per la previsione densa. Nello specifico, utilizziamo FSQ con MaskGIT per la generazione di immagini e con UViM per la stima della profondità, la colorizzazione e la segmentazione panottica. Nonostante il design molto più semplice di FSQ, otteniamo prestazioni competitive in tutte queste attività. Sottolineiamo che FSQ non soffre di collasso del codebook e non richiede la complessa strumentazione impiegata nella VQ (perdite di commitment, re-inizializzazione del codebook, suddivisione del codice, penalità di entropia, ecc.) per apprendere rappresentazioni discrete espressive.

English

We propose to replace vector quantization (VQ) in the latent representation of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where we project the VAE representation down to a few dimensions (typically less than 10). Each dimension is quantized to a small set of fixed values, leading to an (implicit) codebook given by the product of these sets. By appropriately choosing the number of dimensions and values each dimension can take, we obtain the same codebook size as in VQ. On top of such discrete representations, we can train the same models that have been trained on VQ-VAE representations. For example, autoregressive and masked transformer models for image generation, multimodal generation, and dense prediction computer vision tasks. Concretely, we employ FSQ with MaskGIT for image generation, and with UViM for depth estimation, colorization, and panoptic segmentation. Despite the much simpler design of FSQ, we obtain competitive performance in all these tasks. We emphasize that FSQ does not suffer from codebook collapse and does not need the complex machinery employed in VQ (commitment losses, codebook reseeding, code splitting, entropy penalties, etc.) to learn expressive discrete representations.

Quantizzazione Scalare Finita: VQ-VAE Semplificato

Finite Scalar Quantization: VQ-VAE Made Simple

Abstract

Support