CODA: Hergebruik van continue VAEs voor discrete tokenisatie
CODA: Repurposing Continuous VAEs for Discrete Tokenization
March 22, 2025
Auteurs: Zeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang
cs.AI
Samenvatting
Discrete visuele tokenizers transformeren afbeeldingen in een reeks tokens, waardoor token-gebaseerde visuele generatie mogelijk wordt, vergelijkbaar met taalmodellen. Dit proces is echter inherent uitdagend, omdat het zowel het comprimeren van visuele signalen in een compacte representatie als het discretiseren ervan in een vaste set codes vereist. Traditionele discrete tokenizers leren deze twee taken doorgaans gezamenlijk, wat vaak leidt tot instabiele training, lage codebookbenutting en beperkte reconstructiekwaliteit. In dit artikel introduceren we CODA (COntinuous-to-Discrete Adaptation), een raamwerk dat compressie en discretisatie ontkoppelt. In plaats van discrete tokenizers vanaf nul te trainen, past CODA bestaande continue VAEs — die al zijn geoptimaliseerd voor perceptuele compressie — aan tot discrete tokenizers via een zorgvuldig ontworpen discretisatieproces. Door zich voornamelijk te richten op discretisatie, zorgt CODA voor een stabiele en efficiënte training terwijl de sterke visuele kwaliteit van continue VAEs behouden blijft. Empirisch gezien bereikt onze aanpak, met een trainingsbudget dat 6 keer lager is dan dat van standaard VQGAN, een opmerkelijke codebookbenutting van 100% en een indrukwekkende reconstructie-FID (rFID) van 0,43 en 1,34 voor respectievelijk 8 keer en 16 keer compressie op de ImageNet 256×256 benchmark.
English
Discrete visual tokenizers transform images into a sequence of tokens,
enabling token-based visual generation akin to language models. However, this
process is inherently challenging, as it requires both compressing visual
signals into a compact representation and discretizing them into a fixed set of
codes. Traditional discrete tokenizers typically learn the two tasks jointly,
often leading to unstable training, low codebook utilization, and limited
reconstruction quality. In this paper, we introduce
CODA(COntinuous-to-Discrete Adaptation), a
framework that decouples compression and discretization. Instead of training
discrete tokenizers from scratch, CODA adapts off-the-shelf continuous VAEs --
already optimized for perceptual compression -- into discrete tokenizers via a
carefully designed discretization process. By primarily focusing on
discretization, CODA ensures stable and efficient training while retaining the
strong visual fidelity of continuous VAEs. Empirically, with 6
times less training budget than standard VQGAN, our approach achieves a
remarkable codebook utilization of 100% and notable reconstruction FID (rFID)
of 0.43 and 1.34 for 8 times and 16 times
compression on ImageNet 256times 256 benchmark.Summary
AI-Generated Summary