GigaTok: Visuele Tokenizers Schalen naar 3 Miljard Parameters voor Autoregressieve Beeldgeneratie
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
April 11, 2025
Auteurs: Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
cs.AI
Samenvatting
Bij autoregressieve (AR) beeldgeneratie comprimeren visuele tokenizers afbeeldingen tot compacte discrete latente tokens, waardoor efficiënte training van downstream autoregressieve modellen voor visuele generatie via next-token voorspelling mogelijk wordt. Hoewel het opschalen van visuele tokenizers de kwaliteit van beeldreconstructie verbetert, verslechtert het vaak de kwaliteit van downstream generatie – een uitdaging die niet adequaat wordt aangepakt in bestaande literatuur. Om dit aan te pakken, introduceren we GigaTok, de eerste aanpak die tegelijkertijd beeldreconstructie, generatie en representatieleren verbetert bij het opschalen van visuele tokenizers. We identificeren de toenemende complexiteit van de latente ruimte als de belangrijkste factor achter het reconstructie vs. generatie dilemma. Om dit te verzachten, stellen we semantische regularisatie voor, waarbij tokenizer-functies worden afgestemd op semantisch consistente functies van een vooraf getrainde visuele encoder. Deze beperking voorkomt overmatige complexiteit van de latente ruimte tijdens het opschalen, wat resulteert in consistente verbeteringen in zowel reconstructie als downstream autoregressieve generatie. Voortbouwend op semantische regularisatie, verkennen we drie belangrijke praktijken voor het opschalen van tokenizers: (1) het gebruik van 1D-tokenizers voor betere schaalbaarheid, (2) het prioriteren van decoder-schaling bij het uitbreiden van zowel encoder als decoder, en (3) het inzetten van entropieverlies om de training te stabiliseren voor tokenizers op miljardenschaal. Door op te schalen naar 3 miljard parameters, behaalt GigaTok state-of-the-art prestaties in reconstructie, downstream AR-generatie en downstream AR-representatiekwaliteit.
English
In autoregressive (AR) image generation, visual tokenizers compress images
into compact discrete latent tokens, enabling efficient training of downstream
autoregressive models for visual generation via next-token prediction. While
scaling visual tokenizers improves image reconstruction quality, it often
degrades downstream generation quality -- a challenge not adequately addressed
in existing literature. To address this, we introduce GigaTok, the first
approach to simultaneously improve image reconstruction, generation, and
representation learning when scaling visual tokenizers. We identify the growing
complexity of latent space as the key factor behind the reconstruction vs.
generation dilemma. To mitigate this, we propose semantic regularization, which
aligns tokenizer features with semantically consistent features from a
pre-trained visual encoder. This constraint prevents excessive latent space
complexity during scaling, yielding consistent improvements in both
reconstruction and downstream autoregressive generation. Building on semantic
regularization, we explore three key practices for scaling tokenizers:(1) using
1D tokenizers for better scalability, (2) prioritizing decoder scaling when
expanding both encoder and decoder, and (3) employing entropy loss to stabilize
training for billion-scale tokenizers. By scaling to 3 space billion
parameters, GigaTok achieves state-of-the-art performance in reconstruction,
downstream AR generation, and downstream AR representation quality.Summary
AI-Generated Summary