ChatPaper.aiChatPaper

가우시안 변분 오토인코더를 이용한 벡터 양자화

Vector Quantization using Gaussian Variational Autoencoder

December 7, 2025
저자: Tongda Xu, Wendi Zheng, Jiajun He, Jose Miguel Hernandez-Lobato, Yan Wang, Ya-Qin Zhang, Jie Tang
cs.AI

초록

벡터 양자화 변분 자동인코더(VQ-VAE)는 이미지를 이산 토큰으로 압축하는 이산 자동인코더입니다. 이산화로 인해 학습이 어렵다는 문제가 있습니다. 본 논문에서는 특정 제약 조건이 있는 가우시안 VAE를 추가 학습 없이 VQ-VAE로 변환하는 Gaussian Quant(GQ)라는 간단하면서 효과적인 기법을 제안합니다. GQ는 무작위 가우시안 노이즈를 코드북으로 생성하고 사후 평균에 가장 가까운 노이즈를 찾습니다. 이론적으로는 코드북 크기의 로그값이 가우시안 VAE의 비트-백 코딩 속도를 초과할 때 작은 양자화 오차가 보장됨을 증명합니다. 실제적으로는 효과적인 GQ를 위해 가우시안 VAE를 학습하는 휴리스틱 방법인 목표 발산 제약(TDC)을 제안합니다. 실험적으로 GQ가 UNet과 ViT 아키텍처 모두에서 VQGAN, FSQ, LFQ, BSQ와 같은 기존 VQ-VAE들을 능가함을 보입니다. 더 나아가 TDC는 TokenBridge와 같은 기존 가우시안 VAE 이산화 방법들보다도 향상된 성능을 보입니다. 소스 코드는 https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE에서 확인할 수 있습니다.
English
Vector quantized variational autoencoder (VQ-VAE) is a discrete auto-encoder that compresses images into discrete tokens. It is difficult to train due to discretization. In this paper, we propose a simple yet effective technique, dubbed Gaussian Quant (GQ), that converts a Gaussian VAE with certain constraint into a VQ-VAE without training. GQ generates random Gaussian noise as a codebook and finds the closest noise to the posterior mean. Theoretically, we prove that when the logarithm of the codebook size exceeds the bits-back coding rate of the Gaussian VAE, a small quantization error is guaranteed. Practically, we propose a heuristic to train Gaussian VAE for effective GQ, named target divergence constraint (TDC). Empirically, we show that GQ outperforms previous VQ-VAEs, such as VQGAN, FSQ, LFQ, and BSQ, on both UNet and ViT architectures. Furthermore, TDC also improves upon previous Gaussian VAE discretization methods, such as TokenBridge. The source code is provided in https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
PDF12December 10, 2025