CODA: Reutilización de VAEs Continuos para Tokenización Discreta

Resumen

Los tokenizadores visuales discretos transforman imágenes en una secuencia de tokens, permitiendo la generación visual basada en tokens similar a los modelos de lenguaje. Sin embargo, este proceso es intrínsecamente desafiante, ya que requiere tanto comprimir las señales visuales en una representación compacta como discretizarlas en un conjunto fijo de códigos. Los tokenizadores discretos tradicionales suelen aprender ambas tareas de manera conjunta, lo que a menudo conduce a un entrenamiento inestable, una baja utilización del codebook y una calidad de reconstrucción limitada. En este artículo, presentamos CODA (COntinuous-to-Discrete Adaptation), un marco que desacopla la compresión y la discretización. En lugar de entrenar tokenizadores discretos desde cero, CODA adapta VAEs continuos preentrenados —ya optimizados para compresión perceptual— en tokenizadores discretos mediante un proceso de discretización cuidadosamente diseñado. Al centrarse principalmente en la discretización, CODA garantiza un entrenamiento estable y eficiente mientras mantiene la alta fidelidad visual de los VAEs continuos. Empíricamente, con un presupuesto de entrenamiento 6 veces menor que el del VQGAN estándar, nuestro enfoque logra una utilización del codebook del 100% y un notable FID de reconstrucción (rFID) de 0.43 y 1.34 para compresiones de 8 y 16 veces en el benchmark ImageNet 256×256.

English

Discrete visual tokenizers transform images into a sequence of tokens, enabling token-based visual generation akin to language models. However, this process is inherently challenging, as it requires both compressing visual signals into a compact representation and discretizing them into a fixed set of codes. Traditional discrete tokenizers typically learn the two tasks jointly, often leading to unstable training, low codebook utilization, and limited reconstruction quality. In this paper, we introduce CODA(COntinuous-to-Discrete Adaptation), a framework that decouples compression and discretization. Instead of training discrete tokenizers from scratch, CODA adapts off-the-shelf continuous VAEs -- already optimized for perceptual compression -- into discrete tokenizers via a carefully designed discretization process. By primarily focusing on discretization, CODA ensures stable and efficient training while retaining the strong visual fidelity of continuous VAEs. Empirically, with 6 times less training budget than standard VQGAN, our approach achieves a remarkable codebook utilization of 100% and notable reconstruction FID (rFID) of 0.43 and 1.34 for 8 times and 16 times compression on ImageNet 256times 256 benchmark.

CODA: Reutilización de VAEs Continuos para Tokenización Discreta

CODA: Repurposing Continuous VAEs for Discrete Tokenization

Resumen

Support