ChatPaper.aiChatPaper

Dimensionamento de Tokenizadores de Imagens com Quantização Esférica Agrupada

Scaling Image Tokenizers with Grouped Spherical Quantization

December 3, 2024
Autores: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim
cs.AI

Resumo

Os tokenizadores de visão têm ganhado muita atenção devido à sua escalabilidade e compacidade; trabalhos anteriores dependem de hiperparâmetros baseados em GAN tradicionais, comparações tendenciosas e falta de análise abrangente dos comportamentos de escalonamento. Para lidar com essas questões, introduzimos a Quantização Esférica Agrupada (GSQ), apresentando inicialização de codebook esférico e regularização de busca para restringir o codebook latente a uma superfície esférica. Nossa análise empírica das estratégias de treinamento de tokenizadores de imagem demonstra que o GSQ-GAN alcança qualidade de reconstrução superior em relação aos métodos de ponta com menos iterações de treinamento, fornecendo uma base sólida para estudos de escalonamento. Com base nisso, examinamos sistematicamente os comportamentos de escalonamento do GSQ, especificamente em dimensionalidade latente, tamanho do codebook e taxas de compressão, e seu impacto no desempenho do modelo. Nossas descobertas revelam comportamentos distintos em níveis de compressão espacial altos e baixos, destacando desafios na representação de espaços latentes de alta dimensão. Mostramos que o GSQ pode reestruturar latentes de alta dimensão em espaços compactos e de baixa dimensão, possibilitando um escalonamento eficiente com qualidade aprimorada. Como resultado, o GSQ-GAN alcança uma redução de 16x com um FID de reconstrução (rFID) de 0.50.
English
Vision tokenizers have gained a lot of attraction due to their scalability and compactness; previous works depend on old-school GAN-based hyperparameters, biased comparisons, and a lack of comprehensive analysis of the scaling behaviours. To tackle those issues, we introduce Grouped Spherical Quantization (GSQ), featuring spherical codebook initialization and lookup regularization to constrain codebook latent to a spherical surface. Our empirical analysis of image tokenizer training strategies demonstrates that GSQ-GAN achieves superior reconstruction quality over state-of-the-art methods with fewer training iterations, providing a solid foundation for scaling studies. Building on this, we systematically examine the scaling behaviours of GSQ, specifically in latent dimensionality, codebook size, and compression ratios, and their impact on model performance. Our findings reveal distinct behaviours at high and low spatial compression levels, underscoring challenges in representing high-dimensional latent spaces. We show that GSQ can restructure high-dimensional latent into compact, low-dimensional spaces, thus enabling efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x down-sampling with a reconstruction FID (rFID) of 0.50.

Summary

AI-Generated Summary

PDF102December 4, 2024