Dimensionamento de Tokenizadores de Imagens com Quantização Esférica Agrupada
Scaling Image Tokenizers with Grouped Spherical Quantization
December 3, 2024
Autores: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim
cs.AI
Resumo
Os tokenizadores de visão têm ganhado muita atenção devido à sua escalabilidade e compacidade; trabalhos anteriores dependem de hiperparâmetros baseados em GAN tradicionais, comparações tendenciosas e falta de análise abrangente dos comportamentos de escalonamento. Para lidar com essas questões, introduzimos a Quantização Esférica Agrupada (GSQ), apresentando inicialização de codebook esférico e regularização de busca para restringir o codebook latente a uma superfície esférica. Nossa análise empírica das estratégias de treinamento de tokenizadores de imagem demonstra que o GSQ-GAN alcança qualidade de reconstrução superior em relação aos métodos de ponta com menos iterações de treinamento, fornecendo uma base sólida para estudos de escalonamento. Com base nisso, examinamos sistematicamente os comportamentos de escalonamento do GSQ, especificamente em dimensionalidade latente, tamanho do codebook e taxas de compressão, e seu impacto no desempenho do modelo. Nossas descobertas revelam comportamentos distintos em níveis de compressão espacial altos e baixos, destacando desafios na representação de espaços latentes de alta dimensão. Mostramos que o GSQ pode reestruturar latentes de alta dimensão em espaços compactos e de baixa dimensão, possibilitando um escalonamento eficiente com qualidade aprimorada. Como resultado, o GSQ-GAN alcança uma redução de 16x com um FID de reconstrução (rFID) de 0.50.
English
Vision tokenizers have gained a lot of attraction due to their scalability
and compactness; previous works depend on old-school GAN-based hyperparameters,
biased comparisons, and a lack of comprehensive analysis of the scaling
behaviours. To tackle those issues, we introduce Grouped Spherical Quantization
(GSQ), featuring spherical codebook initialization and lookup regularization to
constrain codebook latent to a spherical surface. Our empirical analysis of
image tokenizer training strategies demonstrates that GSQ-GAN achieves superior
reconstruction quality over state-of-the-art methods with fewer training
iterations, providing a solid foundation for scaling studies. Building on this,
we systematically examine the scaling behaviours of GSQ, specifically in latent
dimensionality, codebook size, and compression ratios, and their impact on
model performance. Our findings reveal distinct behaviours at high and low
spatial compression levels, underscoring challenges in representing
high-dimensional latent spaces. We show that GSQ can restructure
high-dimensional latent into compact, low-dimensional spaces, thus enabling
efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x
down-sampling with a reconstruction FID (rFID) of 0.50.Summary
AI-Generated Summary