Масштабирование токенизаторов изображений с групповой сферической квантизацией.

Аннотация

Токенизаторы изображений привлекли много внимания благодаря своей масштабируемости и компактности; предыдущие работы зависели от гиперпараметров на основе старой школы GAN, предвзятых сравнений и отсутствия всестороннего анализа поведения масштабирования. Для решения этих проблем мы представляем Группированную Сферическую Квантизацию (GSQ), включающую инициализацию сферического кодового книга и регуляризацию поиска для ограничения латентного кодового книга к сферической поверхности. Наше эмпирическое исследование стратегий обучения токенизатора изображений показывает, что GSQ-GAN достигает превосходного качества восстановления по сравнению с современными методами с меньшим числом итераций обучения, обеспечивая прочную основу для исследований масштабирования. На основе этого мы систематически изучаем поведение масштабирования GSQ, в частности, в скрытом измерении, размере кодового книга и коэффициентах сжатия, и их влияние на производительность модели. Наши результаты показывают различное поведение на высоких и низких уровнях пространственного сжатия, подчеркивая сложности представления высокоразмерных скрытых пространств. Мы показываем, что GSQ может переструктурировать высокоразмерные скрытые пространства в компактные, низкоразмерные пространства, тем самым обеспечивая эффективное масштабирование с улучшенным качеством. В результате GSQ-GAN достигает 16-кратного уменьшения с реконструкционным FID (rFID) 0.50.

English

Vision tokenizers have gained a lot of attraction due to their scalability and compactness; previous works depend on old-school GAN-based hyperparameters, biased comparisons, and a lack of comprehensive analysis of the scaling behaviours. To tackle those issues, we introduce Grouped Spherical Quantization (GSQ), featuring spherical codebook initialization and lookup regularization to constrain codebook latent to a spherical surface. Our empirical analysis of image tokenizer training strategies demonstrates that GSQ-GAN achieves superior reconstruction quality over state-of-the-art methods with fewer training iterations, providing a solid foundation for scaling studies. Building on this, we systematically examine the scaling behaviours of GSQ, specifically in latent dimensionality, codebook size, and compression ratios, and their impact on model performance. Our findings reveal distinct behaviours at high and low spatial compression levels, underscoring challenges in representing high-dimensional latent spaces. We show that GSQ can restructure high-dimensional latent into compact, low-dimensional spaces, thus enabling efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x down-sampling with a reconstruction FID (rFID) of 0.50.

Масштабирование токенизаторов изображений с групповой сферической квантизацией.

Scaling Image Tokenizers with Grouped Spherical Quantization

Аннотация

Support