Finite Scalar Quantization: VQ-VAE vereinfacht
Finite Scalar Quantization: VQ-VAE Made Simple
September 27, 2023
Autoren: Fabian Mentzer, David Minnen, Eirikur Agustsson, Michael Tschannen
cs.AI
Zusammenfassung
Wir schlagen vor, die Vektorquantisierung (VQ) in der latenten Darstellung von VQ-VAEs durch ein einfaches Schema, genannt finite skalare Quantisierung (FSQ), zu ersetzen, bei dem wir die VAE-Darstellung auf wenige Dimensionen (typischerweise weniger als 10) projizieren. Jede Dimension wird auf eine kleine Menge fester Werte quantisiert, was zu einem (impliziten) Codebuch führt, das durch das Produkt dieser Mengen gegeben ist. Durch die geeignete Wahl der Anzahl der Dimensionen und der Werte, die jede Dimension annehmen kann, erhalten wir die gleiche Codebuchgröße wie bei VQ. Auf solchen diskreten Darstellungen können wir die gleichen Modelle trainieren, die auf VQ-VAE-Darstellungen trainiert wurden. Zum Beispiel autoregressive und maskierte Transformermodelle für die Bildgenerierung, multimodale Generierung und dichte Vorhersageaufgaben in der Computer Vision. Konkret verwenden wir FSQ mit MaskGIT für die Bildgenerierung und mit UViM für Tiefenschätzung, Kolorierung und panoptische Segmentierung. Trotz des viel einfacheren Designs von FSQ erzielen wir in all diesen Aufgaben wettbewerbsfähige Leistungen. Wir betonen, dass FSQ nicht unter Codebuchkollaps leidet und nicht die komplexen Mechanismen benötigt, die in VQ eingesetzt werden (Commitment-Verluste, Codebuch-Neubesetzung, Code-Aufteilung, Entropiestrafen usw.), um ausdrucksstarke diskrete Darstellungen zu lernen.
English
We propose to replace vector quantization (VQ) in the latent representation
of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where
we project the VAE representation down to a few dimensions (typically less than
10). Each dimension is quantized to a small set of fixed values, leading to an
(implicit) codebook given by the product of these sets. By appropriately
choosing the number of dimensions and values each dimension can take, we obtain
the same codebook size as in VQ. On top of such discrete representations, we
can train the same models that have been trained on VQ-VAE representations. For
example, autoregressive and masked transformer models for image generation,
multimodal generation, and dense prediction computer vision tasks. Concretely,
we employ FSQ with MaskGIT for image generation, and with UViM for depth
estimation, colorization, and panoptic segmentation. Despite the much simpler
design of FSQ, we obtain competitive performance in all these tasks. We
emphasize that FSQ does not suffer from codebook collapse and does not need the
complex machinery employed in VQ (commitment losses, codebook reseeding, code
splitting, entropy penalties, etc.) to learn expressive discrete
representations.