Масштабирование токенизаторов изображений с групповой сферической квантизацией.
Scaling Image Tokenizers with Grouped Spherical Quantization
December 3, 2024
Авторы: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim
cs.AI
Аннотация
Токенизаторы изображений привлекли много внимания благодаря своей масштабируемости и компактности; предыдущие работы зависели от гиперпараметров на основе старой школы GAN, предвзятых сравнений и отсутствия всестороннего анализа поведения масштабирования. Для решения этих проблем мы представляем Группированную Сферическую Квантизацию (GSQ), включающую инициализацию сферического кодового книга и регуляризацию поиска для ограничения латентного кодового книга к сферической поверхности. Наше эмпирическое исследование стратегий обучения токенизатора изображений показывает, что GSQ-GAN достигает превосходного качества восстановления по сравнению с современными методами с меньшим числом итераций обучения, обеспечивая прочную основу для исследований масштабирования. На основе этого мы систематически изучаем поведение масштабирования GSQ, в частности, в скрытом измерении, размере кодового книга и коэффициентах сжатия, и их влияние на производительность модели. Наши результаты показывают различное поведение на высоких и низких уровнях пространственного сжатия, подчеркивая сложности представления высокоразмерных скрытых пространств. Мы показываем, что GSQ может переструктурировать высокоразмерные скрытые пространства в компактные, низкоразмерные пространства, тем самым обеспечивая эффективное масштабирование с улучшенным качеством. В результате GSQ-GAN достигает 16-кратного уменьшения с реконструкционным FID (rFID) 0.50.
English
Vision tokenizers have gained a lot of attraction due to their scalability
and compactness; previous works depend on old-school GAN-based hyperparameters,
biased comparisons, and a lack of comprehensive analysis of the scaling
behaviours. To tackle those issues, we introduce Grouped Spherical Quantization
(GSQ), featuring spherical codebook initialization and lookup regularization to
constrain codebook latent to a spherical surface. Our empirical analysis of
image tokenizer training strategies demonstrates that GSQ-GAN achieves superior
reconstruction quality over state-of-the-art methods with fewer training
iterations, providing a solid foundation for scaling studies. Building on this,
we systematically examine the scaling behaviours of GSQ, specifically in latent
dimensionality, codebook size, and compression ratios, and their impact on
model performance. Our findings reveal distinct behaviours at high and low
spatial compression levels, underscoring challenges in representing
high-dimensional latent spaces. We show that GSQ can restructure
high-dimensional latent into compact, low-dimensional spaces, thus enabling
efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x
down-sampling with a reconstruction FID (rFID) of 0.50.Summary
AI-Generated Summary