CODA: Hergebruik van continue VAEs voor discrete tokenisatie

Samenvatting

Discrete visuele tokenizers transformeren afbeeldingen in een reeks tokens, waardoor token-gebaseerde visuele generatie mogelijk wordt, vergelijkbaar met taalmodellen. Dit proces is echter inherent uitdagend, omdat het zowel het comprimeren van visuele signalen in een compacte representatie als het discretiseren ervan in een vaste set codes vereist. Traditionele discrete tokenizers leren deze twee taken doorgaans gezamenlijk, wat vaak leidt tot instabiele training, lage codebookbenutting en beperkte reconstructiekwaliteit. In dit artikel introduceren we CODA (COntinuous-to-Discrete Adaptation), een raamwerk dat compressie en discretisatie ontkoppelt. In plaats van discrete tokenizers vanaf nul te trainen, past CODA bestaande continue VAEs — die al zijn geoptimaliseerd voor perceptuele compressie — aan tot discrete tokenizers via een zorgvuldig ontworpen discretisatieproces. Door zich voornamelijk te richten op discretisatie, zorgt CODA voor een stabiele en efficiënte training terwijl de sterke visuele kwaliteit van continue VAEs behouden blijft. Empirisch gezien bereikt onze aanpak, met een trainingsbudget dat 6 keer lager is dan dat van standaard VQGAN, een opmerkelijke codebookbenutting van 100% en een indrukwekkende reconstructie-FID (rFID) van 0,43 en 1,34 voor respectievelijk 8 keer en 16 keer compressie op de ImageNet 256×256 benchmark.

English

Discrete visual tokenizers transform images into a sequence of tokens, enabling token-based visual generation akin to language models. However, this process is inherently challenging, as it requires both compressing visual signals into a compact representation and discretizing them into a fixed set of codes. Traditional discrete tokenizers typically learn the two tasks jointly, often leading to unstable training, low codebook utilization, and limited reconstruction quality. In this paper, we introduce CODA(COntinuous-to-Discrete Adaptation), a framework that decouples compression and discretization. Instead of training discrete tokenizers from scratch, CODA adapts off-the-shelf continuous VAEs -- already optimized for perceptual compression -- into discrete tokenizers via a carefully designed discretization process. By primarily focusing on discretization, CODA ensures stable and efficient training while retaining the strong visual fidelity of continuous VAEs. Empirically, with 6 times less training budget than standard VQGAN, our approach achieves a remarkable codebook utilization of 100% and notable reconstruction FID (rFID) of 0.43 and 1.34 for 8 times and 16 times compression on ImageNet 256times 256 benchmark.

CODA: Hergebruik van continue VAEs voor discrete tokenisatie

CODA: Repurposing Continuous VAEs for Discrete Tokenization

Samenvatting

Support