GigaTok: Масштабирование визуальных токенизаторов до 3 миллиардов параметров для авторегрессивной генерации изображений
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
April 11, 2025
Авторы: Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
cs.AI
Аннотация
В авторегрессионной (AR) генерации изображений визуальные токенизаторы сжимают изображения в компактные дискретные латентные токены, что позволяет эффективно обучать последующие авторегрессионные модели для визуальной генерации через предсказание следующего токена. Хотя масштабирование визуальных токенизаторов улучшает качество реконструкции изображений, оно часто ухудшает качество последующей генерации — проблема, которая недостаточно освещена в существующей литературе. Чтобы решить эту задачу, мы представляем GigaTok — первый подход, который одновременно улучшает реконструкцию изображений, генерацию и обучение представлений при масштабировании визуальных токенизаторов. Мы выявляем растущую сложность латентного пространства как ключевой фактор, стоящий за дилеммой реконструкции и генерации. Для смягчения этого эффекта мы предлагаем семантическую регуляризацию, которая согласует признаки токенизатора с семантически согласованными признаками из предварительно обученного визуального энкодера. Это ограничение предотвращает чрезмерную сложность латентного пространства при масштабировании, обеспечивая последовательные улучшения как в реконструкции, так и в последующей авторегрессионной генерации. Основываясь на семантической регуляризации, мы исследуем три ключевых практики для масштабирования токенизаторов: (1) использование 1D токенизаторов для лучшей масштабируемости, (2) приоритет масштабирования декодера при расширении как энкодера, так и декодера и (3) применение энтропийной потери для стабилизации обучения токенизаторов с миллиардами параметров. Масштабируя до 3 миллиардов параметров, GigaTok достигает передовых результатов в реконструкции, последующей AR-генерации и качестве AR-представлений.
English
In autoregressive (AR) image generation, visual tokenizers compress images
into compact discrete latent tokens, enabling efficient training of downstream
autoregressive models for visual generation via next-token prediction. While
scaling visual tokenizers improves image reconstruction quality, it often
degrades downstream generation quality -- a challenge not adequately addressed
in existing literature. To address this, we introduce GigaTok, the first
approach to simultaneously improve image reconstruction, generation, and
representation learning when scaling visual tokenizers. We identify the growing
complexity of latent space as the key factor behind the reconstruction vs.
generation dilemma. To mitigate this, we propose semantic regularization, which
aligns tokenizer features with semantically consistent features from a
pre-trained visual encoder. This constraint prevents excessive latent space
complexity during scaling, yielding consistent improvements in both
reconstruction and downstream autoregressive generation. Building on semantic
regularization, we explore three key practices for scaling tokenizers:(1) using
1D tokenizers for better scalability, (2) prioritizing decoder scaling when
expanding both encoder and decoder, and (3) employing entropy loss to stabilize
training for billion-scale tokenizers. By scaling to 3 space billion
parameters, GigaTok achieves state-of-the-art performance in reconstruction,
downstream AR generation, and downstream AR representation quality.Summary
AI-Generated Summary