ChatPaper.aiChatPaper

UniTok: Унифицированный токенизатор для визуальной генерации и понимания

UniTok: A Unified Tokenizer for Visual Generation and Understanding

February 27, 2025
Авторы: Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi
cs.AI

Аннотация

Разрыв в представлении между визуальной генерацией и пониманием создает критический барьер для интеграции этих возможностей в единую структуру. Чтобы преодолеть этот разрыв, мы представляем UniTok — дискретный визуальный токенизатор, который кодирует детализированные элементы для генерации, одновременно захватывая высокоуровневую семантику для понимания. Хотя недавние исследования показали, что эти задачи могут вызывать конфликты потерь при обучении, мы выяснили, что основное ограничение связано с недостаточной емкостью представления дискретных токенов. Мы решаем эту проблему, вводя многокодовую квантизацию, которая разделяет векторную квантизацию на несколько независимых субкодовых книг, расширяя пространство латентных признаков и избегая нестабильности обучения, вызванной чрезмерно большими кодовыми книгами. Наш метод значительно повышает верхний предел унифицированных дискретных токенизаторов, позволяя им соответствовать или даже превосходить специализированные непрерывные токенизаторы. Например, UniTok достигает впечатляющего rFID 0.38 (по сравнению с 0.87 для SD-VAE) и точности 78.6% в задаче zero-shot (по сравнению с 76.2% для CLIP) на ImageNet. Наш код доступен по адресу https://github.com/FoundationVision/UniTok.
English
The representation disparity between visual generation and understanding imposes a critical gap in integrating these capabilities into a single framework. To bridge this gap, we introduce UniTok, a discrete visual tokenizer that encodes fine-grained details for generation while also capturing high-level semantics for understanding. Despite recent studies have shown that these objectives could induce loss conflicts in training, we reveal that the underlying bottleneck stems from limited representational capacity of discrete tokens. We address this by introducing multi-codebook quantization, which divides vector quantization with several independent sub-codebooks to expand the latent feature space, while avoiding training instability caused by overlarge codebooks. Our method significantly raises the upper limit of unified discrete tokenizers to match or even surpass domain-specific continuous tokenizers. For instance, UniTok achieves a remarkable rFID of 0.38 (versus 0.87 for SD-VAE) and a zero-shot accuracy of 78.6% (versus 76.2% for CLIP) on ImageNet. Our code is available at https://github.com/FoundationVision/UniTok.

Summary

AI-Generated Summary

PDF302February 28, 2025