UniTok: Унифицированный токенизатор для визуальной генерации и понимания
UniTok: A Unified Tokenizer for Visual Generation and Understanding
February 27, 2025
Авторы: Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi
cs.AI
Аннотация
Разрыв в представлении между визуальной генерацией и пониманием создает критический барьер для интеграции этих возможностей в единую структуру. Чтобы преодолеть этот разрыв, мы представляем UniTok — дискретный визуальный токенизатор, который кодирует детализированные элементы для генерации, одновременно захватывая высокоуровневую семантику для понимания. Хотя недавние исследования показали, что эти задачи могут вызывать конфликты потерь при обучении, мы выяснили, что основное ограничение связано с недостаточной емкостью представления дискретных токенов. Мы решаем эту проблему, вводя многокодовую квантизацию, которая разделяет векторную квантизацию на несколько независимых субкодовых книг, расширяя пространство латентных признаков и избегая нестабильности обучения, вызванной чрезмерно большими кодовыми книгами. Наш метод значительно повышает верхний предел унифицированных дискретных токенизаторов, позволяя им соответствовать или даже превосходить специализированные непрерывные токенизаторы. Например, UniTok достигает впечатляющего rFID 0.38 (по сравнению с 0.87 для SD-VAE) и точности 78.6% в задаче zero-shot (по сравнению с 76.2% для CLIP) на ImageNet. Наш код доступен по адресу https://github.com/FoundationVision/UniTok.
English
The representation disparity between visual generation and understanding
imposes a critical gap in integrating these capabilities into a single
framework. To bridge this gap, we introduce UniTok, a discrete visual tokenizer
that encodes fine-grained details for generation while also capturing
high-level semantics for understanding. Despite recent studies have shown that
these objectives could induce loss conflicts in training, we reveal that the
underlying bottleneck stems from limited representational capacity of discrete
tokens. We address this by introducing multi-codebook quantization, which
divides vector quantization with several independent sub-codebooks to expand
the latent feature space, while avoiding training instability caused by
overlarge codebooks. Our method significantly raises the upper limit of unified
discrete tokenizers to match or even surpass domain-specific continuous
tokenizers. For instance, UniTok achieves a remarkable rFID of 0.38 (versus
0.87 for SD-VAE) and a zero-shot accuracy of 78.6% (versus 76.2% for CLIP) on
ImageNet. Our code is available at https://github.com/FoundationVision/UniTok.Summary
AI-Generated Summary