ChatPaper.aiChatPaper

GigaTok: Escalonando Tokenizadores Visuais para 3 Bilhões de Parâmetros na Geração Autoregressiva de Imagens

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

April 11, 2025
Autores: Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
cs.AI

Resumo

Na geração de imagens autoregressiva (AR), os tokenizadores visuais comprimem imagens em tokens latentes discretos compactos, permitindo o treinamento eficiente de modelos autoregressivos subsequentes para geração visual por meio da previsão do próximo token. Embora a escalabilidade dos tokenizadores visuais melhore a qualidade da reconstrução de imagens, ela frequentemente degrada a qualidade da geração subsequente — um desafio não adequadamente abordado na literatura existente. Para resolver isso, introduzimos o GigaTok, a primeira abordagem a melhorar simultaneamente a reconstrução de imagens, a geração e o aprendizado de representação ao escalar tokenizadores visuais. Identificamos o aumento da complexidade do espaço latente como o fator-chave por trás do dilema entre reconstrução e geração. Para mitigar isso, propomos a regularização semântica, que alinha as características do tokenizador com características semanticamente consistentes de um codificador visual pré-treinado. Essa restrição evita a complexidade excessiva do espaço latente durante a escalabilidade, resultando em melhorias consistentes tanto na reconstrução quanto na geração autoregressiva subsequente. Com base na regularização semântica, exploramos três práticas-chave para escalar tokenizadores: (1) usar tokenizadores 1D para melhor escalabilidade, (2) priorizar a escalabilidade do decodificador ao expandir tanto o codificador quanto o decodificador, e (3) empregar perda de entropia para estabilizar o treinamento de tokenizadores em escala de bilhões. Ao escalar para 3 bilhões de parâmetros, o GigaTok alcança desempenho de ponta em reconstrução, geração AR subsequente e qualidade de representação AR subsequente.
English
In autoregressive (AR) image generation, visual tokenizers compress images into compact discrete latent tokens, enabling efficient training of downstream autoregressive models for visual generation via next-token prediction. While scaling visual tokenizers improves image reconstruction quality, it often degrades downstream generation quality -- a challenge not adequately addressed in existing literature. To address this, we introduce GigaTok, the first approach to simultaneously improve image reconstruction, generation, and representation learning when scaling visual tokenizers. We identify the growing complexity of latent space as the key factor behind the reconstruction vs. generation dilemma. To mitigate this, we propose semantic regularization, which aligns tokenizer features with semantically consistent features from a pre-trained visual encoder. This constraint prevents excessive latent space complexity during scaling, yielding consistent improvements in both reconstruction and downstream autoregressive generation. Building on semantic regularization, we explore three key practices for scaling tokenizers:(1) using 1D tokenizers for better scalability, (2) prioritizing decoder scaling when expanding both encoder and decoder, and (3) employing entropy loss to stabilize training for billion-scale tokenizers. By scaling to 3 space billion parameters, GigaTok achieves state-of-the-art performance in reconstruction, downstream AR generation, and downstream AR representation quality.

Summary

AI-Generated Summary

PDF472April 14, 2025