GigaTok: Escalonando Tokenizadores Visuais para 3 Bilhões de Parâmetros na Geração Autoregressiva de Imagens
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
April 11, 2025
Autores: Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
cs.AI
Resumo
Na geração de imagens autoregressiva (AR), os tokenizadores visuais comprimem imagens em tokens latentes discretos compactos, permitindo o treinamento eficiente de modelos autoregressivos subsequentes para geração visual por meio da previsão do próximo token. Embora a escalabilidade dos tokenizadores visuais melhore a qualidade da reconstrução de imagens, ela frequentemente degrada a qualidade da geração subsequente — um desafio não adequadamente abordado na literatura existente. Para resolver isso, introduzimos o GigaTok, a primeira abordagem a melhorar simultaneamente a reconstrução de imagens, a geração e o aprendizado de representação ao escalar tokenizadores visuais. Identificamos o aumento da complexidade do espaço latente como o fator-chave por trás do dilema entre reconstrução e geração. Para mitigar isso, propomos a regularização semântica, que alinha as características do tokenizador com características semanticamente consistentes de um codificador visual pré-treinado. Essa restrição evita a complexidade excessiva do espaço latente durante a escalabilidade, resultando em melhorias consistentes tanto na reconstrução quanto na geração autoregressiva subsequente. Com base na regularização semântica, exploramos três práticas-chave para escalar tokenizadores: (1) usar tokenizadores 1D para melhor escalabilidade, (2) priorizar a escalabilidade do decodificador ao expandir tanto o codificador quanto o decodificador, e (3) empregar perda de entropia para estabilizar o treinamento de tokenizadores em escala de bilhões. Ao escalar para 3 bilhões de parâmetros, o GigaTok alcança desempenho de ponta em reconstrução, geração AR subsequente e qualidade de representação AR subsequente.
English
In autoregressive (AR) image generation, visual tokenizers compress images
into compact discrete latent tokens, enabling efficient training of downstream
autoregressive models for visual generation via next-token prediction. While
scaling visual tokenizers improves image reconstruction quality, it often
degrades downstream generation quality -- a challenge not adequately addressed
in existing literature. To address this, we introduce GigaTok, the first
approach to simultaneously improve image reconstruction, generation, and
representation learning when scaling visual tokenizers. We identify the growing
complexity of latent space as the key factor behind the reconstruction vs.
generation dilemma. To mitigate this, we propose semantic regularization, which
aligns tokenizer features with semantically consistent features from a
pre-trained visual encoder. This constraint prevents excessive latent space
complexity during scaling, yielding consistent improvements in both
reconstruction and downstream autoregressive generation. Building on semantic
regularization, we explore three key practices for scaling tokenizers:(1) using
1D tokenizers for better scalability, (2) prioritizing decoder scaling when
expanding both encoder and decoder, and (3) employing entropy loss to stabilize
training for billion-scale tokenizers. By scaling to 3 space billion
parameters, GigaTok achieves state-of-the-art performance in reconstruction,
downstream AR generation, and downstream AR representation quality.Summary
AI-Generated Summary