ChatPaper.aiChatPaper

Mise à l'échelle des Tokenizers d'Images avec Quantification Sphérique Groupée

Scaling Image Tokenizers with Grouped Spherical Quantization

December 3, 2024
Auteurs: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim
cs.AI

Résumé

Les tokenizers de vision ont suscité beaucoup d'attention en raison de leur extensibilité et de leur compacité ; les travaux antérieurs dépendent de paramètres hyperboliques basés sur les GAN de l'ancienne école, de comparaisons biaisées et d'un manque d'analyse complète des comportements d'échelle. Pour résoudre ces problèmes, nous introduisons la Quantification Sphérique Groupée (GSQ), caractérisée par une initialisation de codebook sphérique et une régularisation de recherche pour contraindre le codebook latent à une surface sphérique. Notre analyse empirique des stratégies d'entraînement du tokenizer d'image démontre que GSQ-GAN atteint une qualité de reconstruction supérieure aux méthodes de pointe avec moins d'itérations d'entraînement, posant ainsi des bases solides pour des études d'échelle. En nous appuyant sur cela, nous examinons systématiquement les comportements d'échelle de GSQ, en particulier dans la dimension latente, la taille du codebook et les taux de compression, et leur impact sur les performances du modèle. Nos résultats révèlent des comportements distincts aux niveaux de compression spatiale élevés et faibles, soulignant les défis de représentation des espaces latents de haute dimension. Nous montrons que GSQ peut restructurer les espaces latents de haute dimension en espaces compacts de basse dimension, permettant ainsi une mise à l'échelle efficace avec une qualité améliorée. En conséquence, GSQ-GAN atteint un sous-échantillonnage de 16x avec un FID de reconstruction (rFID) de 0,50.
English
Vision tokenizers have gained a lot of attraction due to their scalability and compactness; previous works depend on old-school GAN-based hyperparameters, biased comparisons, and a lack of comprehensive analysis of the scaling behaviours. To tackle those issues, we introduce Grouped Spherical Quantization (GSQ), featuring spherical codebook initialization and lookup regularization to constrain codebook latent to a spherical surface. Our empirical analysis of image tokenizer training strategies demonstrates that GSQ-GAN achieves superior reconstruction quality over state-of-the-art methods with fewer training iterations, providing a solid foundation for scaling studies. Building on this, we systematically examine the scaling behaviours of GSQ, specifically in latent dimensionality, codebook size, and compression ratios, and their impact on model performance. Our findings reveal distinct behaviours at high and low spatial compression levels, underscoring challenges in representing high-dimensional latent spaces. We show that GSQ can restructure high-dimensional latent into compact, low-dimensional spaces, thus enabling efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x down-sampling with a reconstruction FID (rFID) of 0.50.

Summary

AI-Generated Summary

PDF102December 4, 2024