UniTok: Un Tokenizador Unificado para Generación y Comprensión Visual
UniTok: A Unified Tokenizer for Visual Generation and Understanding
February 27, 2025
Autores: Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi
cs.AI
Resumen
La disparidad en la representación entre la generación visual y la comprensión
impone una brecha crítica al integrar estas capacidades en un único
marco de trabajo. Para cerrar esta brecha, presentamos UniTok, un tokenizador
visual discreto que codifica detalles de grano fino para la generación, al mismo
tiempo que captura semántica de alto nivel para la comprensión. A pesar de que
estudios recientes han demostrado que estos objetivos podrían generar conflictos
de pérdida durante el entrenamiento, revelamos que el cuello de botella subyacente
proviene de la capacidad representacional limitada de los tokens discretos.
Abordamos esto mediante la introducción de la cuantización de múltiples libros de
códigos, que divide la cuantización vectorial con varios sub-libros de códigos
independientes para expandir el espacio de características latentes, evitando
al mismo tiempo la inestabilidad en el entrenamiento causada por libros de códigos
demasiado grandes. Nuestro método eleva significativamente el límite superior
de los tokenizadores discretos unificados para igualar o incluso superar a los
tokenizadores continuos específicos de dominio. Por ejemplo, UniTok logra un
rFID notable de 0.38 (frente a 0.87 para SD-VAE) y una precisión zero-shot del
78.6% (frente al 76.2% para CLIP) en ImageNet. Nuestro código está disponible en
https://github.com/FoundationVision/UniTok.
English
The representation disparity between visual generation and understanding
imposes a critical gap in integrating these capabilities into a single
framework. To bridge this gap, we introduce UniTok, a discrete visual tokenizer
that encodes fine-grained details for generation while also capturing
high-level semantics for understanding. Despite recent studies have shown that
these objectives could induce loss conflicts in training, we reveal that the
underlying bottleneck stems from limited representational capacity of discrete
tokens. We address this by introducing multi-codebook quantization, which
divides vector quantization with several independent sub-codebooks to expand
the latent feature space, while avoiding training instability caused by
overlarge codebooks. Our method significantly raises the upper limit of unified
discrete tokenizers to match or even surpass domain-specific continuous
tokenizers. For instance, UniTok achieves a remarkable rFID of 0.38 (versus
0.87 for SD-VAE) and a zero-shot accuracy of 78.6% (versus 76.2% for CLIP) on
ImageNet. Our code is available at https://github.com/FoundationVision/UniTok.Summary
AI-Generated Summary