Cuantificación Vectorial utilizando un Autoencoder Variacional Gaussiano

Resumen

El autoencoder variacional de cuantización vectorial (VQ-VAE) es un autoencoder discreto que comprime imágenes en tokens discretos. Es difícil de entrenar debido a la discretización. En este artículo, proponemos una técnica simple pero efectiva, denominada Cuantización Gaussiana (GQ), que convierte un VAE Gaussiano con cierta restricción en un VQ-VAE sin necesidad de entrenamiento. GQ genera ruido gaussiano aleatorio como libro de códigos y encuentra el ruido más cercano a la media posterior. Teóricamente, demostramos que cuando el logaritmo del tamaño del libro de códigos supera la tasa de codificación de bits posteriores del VAE Gaussiano, se garantiza un pequeño error de cuantización. En la práctica, proponemos una heurística para entrenar el VAE Gaussiano para una GQ efectiva, denominada restricción de divergencia objetivo (TDC). Empíricamente, mostramos que GQ supera a VQ-VAEs anteriores, como VQGAN, FSQ, LFQ y BSQ, tanto en arquitecturas UNet como ViT. Además, TDC también mejora los métodos de discretización de VAE Gaussianos anteriores, como TokenBridge. El código fuente se proporciona en https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.

English

Vector quantized variational autoencoder (VQ-VAE) is a discrete auto-encoder that compresses images into discrete tokens. It is difficult to train due to discretization. In this paper, we propose a simple yet effective technique, dubbed Gaussian Quant (GQ), that converts a Gaussian VAE with certain constraint into a VQ-VAE without training. GQ generates random Gaussian noise as a codebook and finds the closest noise to the posterior mean. Theoretically, we prove that when the logarithm of the codebook size exceeds the bits-back coding rate of the Gaussian VAE, a small quantization error is guaranteed. Practically, we propose a heuristic to train Gaussian VAE for effective GQ, named target divergence constraint (TDC). Empirically, we show that GQ outperforms previous VQ-VAEs, such as VQGAN, FSQ, LFQ, and BSQ, on both UNet and ViT architectures. Furthermore, TDC also improves upon previous Gaussian VAE discretization methods, such as TokenBridge. The source code is provided in https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.

Cuantificación Vectorial utilizando un Autoencoder Variacional Gaussiano

Vector Quantization using Gaussian Variational Autoencoder

Resumen

Support