UniTok: Ein einheitlicher Tokenizer für visuelle Erzeugung und Verständnis
UniTok: A Unified Tokenizer for Visual Generation and Understanding
February 27, 2025
Autoren: Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi
cs.AI
Zusammenfassung
Die Repräsentationsdiskrepanz zwischen visueller Generierung und Verständnis
stellt eine kritische Lücke bei der Integration dieser Fähigkeiten in ein einheitliches
Framework dar. Um diese Lücke zu überbrücken, führen wir UniTok ein, einen diskreten
visuellen Tokenizer, der feingranulare Details für die Generierung kodiert, während er
gleichzeitig hochrangige Semantik für das Verständnis erfasst. Obwohl aktuelle Studien
gezeigt haben, dass diese Ziele zu Verlustkonflikten im Training führen können, zeigen wir,
dass der zugrunde liegende Engpass auf der begrenzten Repräsentationskapazität
diskreter Token beruht. Wir adressieren dies durch die Einführung einer Multi-Codebook-Quantisierung,
die die Vektorquantisierung mit mehreren unabhängigen Sub-Codebooks aufteilt, um den
latenten Merkmalsraum zu erweitern, während Instabilitäten im Training durch zu große
Codebooks vermieden werden. Unsere Methode erhöht die Obergrenze einheitlicher
diskreter Tokenizer signifikant, sodass sie domänenspezifische kontinuierliche Tokenizer
übertreffen oder sogar übertreffen können. Beispielsweise erreicht UniTok einen bemerkenswerten
rFID-Wert von 0,38 (im Vergleich zu 0,87 für SD-VAE) und eine Zero-Shot-Genauigkeit von 78,6 %
(im Vergleich zu 76,2 % für CLIP) auf ImageNet. Unser Code ist verfügbar unter
https://github.com/FoundationVision/UniTok.
English
The representation disparity between visual generation and understanding
imposes a critical gap in integrating these capabilities into a single
framework. To bridge this gap, we introduce UniTok, a discrete visual tokenizer
that encodes fine-grained details for generation while also capturing
high-level semantics for understanding. Despite recent studies have shown that
these objectives could induce loss conflicts in training, we reveal that the
underlying bottleneck stems from limited representational capacity of discrete
tokens. We address this by introducing multi-codebook quantization, which
divides vector quantization with several independent sub-codebooks to expand
the latent feature space, while avoiding training instability caused by
overlarge codebooks. Our method significantly raises the upper limit of unified
discrete tokenizers to match or even surpass domain-specific continuous
tokenizers. For instance, UniTok achieves a remarkable rFID of 0.38 (versus
0.87 for SD-VAE) and a zero-shot accuracy of 78.6% (versus 76.2% for CLIP) on
ImageNet. Our code is available at https://github.com/FoundationVision/UniTok.Summary
AI-Generated Summary