CODA: Reutilización de VAEs Continuos para Tokenización Discreta
CODA: Repurposing Continuous VAEs for Discrete Tokenization
March 22, 2025
Autores: Zeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang
cs.AI
Resumen
Los tokenizadores visuales discretos transforman imágenes en una secuencia de tokens, permitiendo la generación visual basada en tokens similar a los modelos de lenguaje. Sin embargo, este proceso es intrínsecamente desafiante, ya que requiere tanto comprimir las señales visuales en una representación compacta como discretizarlas en un conjunto fijo de códigos. Los tokenizadores discretos tradicionales suelen aprender ambas tareas de manera conjunta, lo que a menudo conduce a un entrenamiento inestable, una baja utilización del codebook y una calidad de reconstrucción limitada. En este artículo, presentamos CODA (COntinuous-to-Discrete Adaptation), un marco que desacopla la compresión y la discretización. En lugar de entrenar tokenizadores discretos desde cero, CODA adapta VAEs continuos preentrenados —ya optimizados para compresión perceptual— en tokenizadores discretos mediante un proceso de discretización cuidadosamente diseñado. Al centrarse principalmente en la discretización, CODA garantiza un entrenamiento estable y eficiente mientras mantiene la alta fidelidad visual de los VAEs continuos. Empíricamente, con un presupuesto de entrenamiento 6 veces menor que el del VQGAN estándar, nuestro enfoque logra una utilización del codebook del 100% y un notable FID de reconstrucción (rFID) de 0.43 y 1.34 para compresiones de 8 y 16 veces en el benchmark ImageNet 256×256.
English
Discrete visual tokenizers transform images into a sequence of tokens,
enabling token-based visual generation akin to language models. However, this
process is inherently challenging, as it requires both compressing visual
signals into a compact representation and discretizing them into a fixed set of
codes. Traditional discrete tokenizers typically learn the two tasks jointly,
often leading to unstable training, low codebook utilization, and limited
reconstruction quality. In this paper, we introduce
CODA(COntinuous-to-Discrete Adaptation), a
framework that decouples compression and discretization. Instead of training
discrete tokenizers from scratch, CODA adapts off-the-shelf continuous VAEs --
already optimized for perceptual compression -- into discrete tokenizers via a
carefully designed discretization process. By primarily focusing on
discretization, CODA ensures stable and efficient training while retaining the
strong visual fidelity of continuous VAEs. Empirically, with 6
times less training budget than standard VQGAN, our approach achieves a
remarkable codebook utilization of 100% and notable reconstruction FID (rFID)
of 0.43 and 1.34 for 8 times and 16 times
compression on ImageNet 256times 256 benchmark.Summary
AI-Generated Summary