ChatPaper.aiChatPaper

グループ化された球面量子化を用いた画像トークナイザーのスケーリング

Scaling Image Tokenizers with Grouped Spherical Quantization

December 3, 2024
著者: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim
cs.AI

要旨

ビジョン・トークナイザーは、その拡張性とコンパクトさから多くの注目を集めています。これまでの研究は、旧来のGANベースのハイパーパラメーター、偏った比較、およびスケーリングの振る舞いの包括的な分析の欠如に依存していました。これらの問題に取り組むために、私たちはグループ化された球面量子化(GSQ)を導入しました。これには、球面コードブックの初期化とルックアップ正則化が含まれており、コードブックの潜在を球面表面に制約することができます。画像トークナイザーのトレーニング戦略の実証的分析により、GSQ-GANが最先端の手法よりも優れた再構成品質をより少ないトレーニングイテレーションで達成し、スケーリング研究の堅固な基盤を提供します。これに基づき、我々はGSQのスケーリングの振る舞いを系統的に調査し、特に潜在次元、コードブックのサイズ、および圧縮比率、およびそれらがモデルのパフォーマンスに与える影響を検討します。我々の調査結果は、高次元の潜在空間を表現する際の課題を強調し、高い空間圧縮レベルと低い空間圧縮レベルで異なる振る舞いを示しています。GSQは、高次元の潜在をコンパクトで低次元の空間に再構築できるため、品質を向上させつつ効率的なスケーリングが可能です。その結果、GSQ-GANは再構成FID(rFID)が0.50の16倍のダウンサンプリングを達成しています。
English
Vision tokenizers have gained a lot of attraction due to their scalability and compactness; previous works depend on old-school GAN-based hyperparameters, biased comparisons, and a lack of comprehensive analysis of the scaling behaviours. To tackle those issues, we introduce Grouped Spherical Quantization (GSQ), featuring spherical codebook initialization and lookup regularization to constrain codebook latent to a spherical surface. Our empirical analysis of image tokenizer training strategies demonstrates that GSQ-GAN achieves superior reconstruction quality over state-of-the-art methods with fewer training iterations, providing a solid foundation for scaling studies. Building on this, we systematically examine the scaling behaviours of GSQ, specifically in latent dimensionality, codebook size, and compression ratios, and their impact on model performance. Our findings reveal distinct behaviours at high and low spatial compression levels, underscoring challenges in representing high-dimensional latent spaces. We show that GSQ can restructure high-dimensional latent into compact, low-dimensional spaces, thus enabling efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x down-sampling with a reconstruction FID (rFID) of 0.50.

Summary

AI-Generated Summary

PDF102December 4, 2024