Mise à l'échelle des Tokenizers d'Images avec Quantification Sphérique Groupée
Scaling Image Tokenizers with Grouped Spherical Quantization
December 3, 2024
Auteurs: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim
cs.AI
Résumé
Les tokenizers de vision ont suscité beaucoup d'attention en raison de leur extensibilité et de leur compacité ; les travaux antérieurs dépendent de paramètres hyperboliques basés sur les GAN de l'ancienne école, de comparaisons biaisées et d'un manque d'analyse complète des comportements d'échelle. Pour résoudre ces problèmes, nous introduisons la Quantification Sphérique Groupée (GSQ), caractérisée par une initialisation de codebook sphérique et une régularisation de recherche pour contraindre le codebook latent à une surface sphérique. Notre analyse empirique des stratégies d'entraînement du tokenizer d'image démontre que GSQ-GAN atteint une qualité de reconstruction supérieure aux méthodes de pointe avec moins d'itérations d'entraînement, posant ainsi des bases solides pour des études d'échelle. En nous appuyant sur cela, nous examinons systématiquement les comportements d'échelle de GSQ, en particulier dans la dimension latente, la taille du codebook et les taux de compression, et leur impact sur les performances du modèle. Nos résultats révèlent des comportements distincts aux niveaux de compression spatiale élevés et faibles, soulignant les défis de représentation des espaces latents de haute dimension. Nous montrons que GSQ peut restructurer les espaces latents de haute dimension en espaces compacts de basse dimension, permettant ainsi une mise à l'échelle efficace avec une qualité améliorée. En conséquence, GSQ-GAN atteint un sous-échantillonnage de 16x avec un FID de reconstruction (rFID) de 0,50.
English
Vision tokenizers have gained a lot of attraction due to their scalability
and compactness; previous works depend on old-school GAN-based hyperparameters,
biased comparisons, and a lack of comprehensive analysis of the scaling
behaviours. To tackle those issues, we introduce Grouped Spherical Quantization
(GSQ), featuring spherical codebook initialization and lookup regularization to
constrain codebook latent to a spherical surface. Our empirical analysis of
image tokenizer training strategies demonstrates that GSQ-GAN achieves superior
reconstruction quality over state-of-the-art methods with fewer training
iterations, providing a solid foundation for scaling studies. Building on this,
we systematically examine the scaling behaviours of GSQ, specifically in latent
dimensionality, codebook size, and compression ratios, and their impact on
model performance. Our findings reveal distinct behaviours at high and low
spatial compression levels, underscoring challenges in representing
high-dimensional latent spaces. We show that GSQ can restructure
high-dimensional latent into compact, low-dimensional spaces, thus enabling
efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x
down-sampling with a reconstruction FID (rFID) of 0.50.Summary
AI-Generated Summary