ChatPaper.aiChatPaper

UniTok: Ein einheitlicher Tokenizer für visuelle Erzeugung und Verständnis

UniTok: A Unified Tokenizer for Visual Generation and Understanding

February 27, 2025
Autoren: Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu, Zehuan Yuan, Bingyue Peng, Xiaojuan Qi
cs.AI

Zusammenfassung

Die Repräsentationsdiskrepanz zwischen visueller Generierung und Verständnis stellt eine kritische Lücke bei der Integration dieser Fähigkeiten in ein einheitliches Framework dar. Um diese Lücke zu überbrücken, führen wir UniTok ein, einen diskreten visuellen Tokenizer, der feingranulare Details für die Generierung kodiert, während er gleichzeitig hochrangige Semantik für das Verständnis erfasst. Obwohl aktuelle Studien gezeigt haben, dass diese Ziele zu Verlustkonflikten im Training führen können, zeigen wir, dass der zugrunde liegende Engpass auf der begrenzten Repräsentationskapazität diskreter Token beruht. Wir adressieren dies durch die Einführung einer Multi-Codebook-Quantisierung, die die Vektorquantisierung mit mehreren unabhängigen Sub-Codebooks aufteilt, um den latenten Merkmalsraum zu erweitern, während Instabilitäten im Training durch zu große Codebooks vermieden werden. Unsere Methode erhöht die Obergrenze einheitlicher diskreter Tokenizer signifikant, sodass sie domänenspezifische kontinuierliche Tokenizer übertreffen oder sogar übertreffen können. Beispielsweise erreicht UniTok einen bemerkenswerten rFID-Wert von 0,38 (im Vergleich zu 0,87 für SD-VAE) und eine Zero-Shot-Genauigkeit von 78,6 % (im Vergleich zu 76,2 % für CLIP) auf ImageNet. Unser Code ist verfügbar unter https://github.com/FoundationVision/UniTok.
English
The representation disparity between visual generation and understanding imposes a critical gap in integrating these capabilities into a single framework. To bridge this gap, we introduce UniTok, a discrete visual tokenizer that encodes fine-grained details for generation while also capturing high-level semantics for understanding. Despite recent studies have shown that these objectives could induce loss conflicts in training, we reveal that the underlying bottleneck stems from limited representational capacity of discrete tokens. We address this by introducing multi-codebook quantization, which divides vector quantization with several independent sub-codebooks to expand the latent feature space, while avoiding training instability caused by overlarge codebooks. Our method significantly raises the upper limit of unified discrete tokenizers to match or even surpass domain-specific continuous tokenizers. For instance, UniTok achieves a remarkable rFID of 0.38 (versus 0.87 for SD-VAE) and a zero-shot accuracy of 78.6% (versus 76.2% for CLIP) on ImageNet. Our code is available at https://github.com/FoundationVision/UniTok.

Summary

AI-Generated Summary

PDF302February 28, 2025