ChatPaper.aiChatPaper

UniTok: Un Tokenizador Unificado para Generación y Comprensión Visual

UniTok: A Unified Tokenizer for Visual Generation and Understanding

February 27, 2025
Autores: Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi
cs.AI

Resumen

La disparidad en la representación entre la generación visual y la comprensión impone una brecha crítica al integrar estas capacidades en un único marco de trabajo. Para cerrar esta brecha, presentamos UniTok, un tokenizador visual discreto que codifica detalles de grano fino para la generación, al mismo tiempo que captura semántica de alto nivel para la comprensión. A pesar de que estudios recientes han demostrado que estos objetivos podrían generar conflictos de pérdida durante el entrenamiento, revelamos que el cuello de botella subyacente proviene de la capacidad representacional limitada de los tokens discretos. Abordamos esto mediante la introducción de la cuantización de múltiples libros de códigos, que divide la cuantización vectorial con varios sub-libros de códigos independientes para expandir el espacio de características latentes, evitando al mismo tiempo la inestabilidad en el entrenamiento causada por libros de códigos demasiado grandes. Nuestro método eleva significativamente el límite superior de los tokenizadores discretos unificados para igualar o incluso superar a los tokenizadores continuos específicos de dominio. Por ejemplo, UniTok logra un rFID notable de 0.38 (frente a 0.87 para SD-VAE) y una precisión zero-shot del 78.6% (frente al 76.2% para CLIP) en ImageNet. Nuestro código está disponible en https://github.com/FoundationVision/UniTok.
English
The representation disparity between visual generation and understanding imposes a critical gap in integrating these capabilities into a single framework. To bridge this gap, we introduce UniTok, a discrete visual tokenizer that encodes fine-grained details for generation while also capturing high-level semantics for understanding. Despite recent studies have shown that these objectives could induce loss conflicts in training, we reveal that the underlying bottleneck stems from limited representational capacity of discrete tokens. We address this by introducing multi-codebook quantization, which divides vector quantization with several independent sub-codebooks to expand the latent feature space, while avoiding training instability caused by overlarge codebooks. Our method significantly raises the upper limit of unified discrete tokenizers to match or even surpass domain-specific continuous tokenizers. For instance, UniTok achieves a remarkable rFID of 0.38 (versus 0.87 for SD-VAE) and a zero-shot accuracy of 78.6% (versus 76.2% for CLIP) on ImageNet. Our code is available at https://github.com/FoundationVision/UniTok.

Summary

AI-Generated Summary

PDF302February 28, 2025