Rumo a um Pré-treinamento Escalável de Tokenizadores Visuais para Geração
Towards Scalable Pre-training of Visual Tokenizers for Generation
December 15, 2025
Autores: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI
Resumo
A qualidade do espaço latente em tokenizadores visuais (por exemplo, VAEs) é crucial para os modelos generativos modernos. No entanto, o paradigma padrão de treinamento baseado em reconstrução produz um espaço latente tendencioso para informações de baixo nível, levando a uma falha fundamental: uma melhor precisão a nível de pixel não resulta em geração de maior qualidade. Isto implica que investir computação massiva no pré-treinamento do tokenizador visual traduz-se pouco em melhorias de desempenho na geração. Identificamos isto como o "problema de escala no pré-treinamento" e sugerimos uma mudança necessária: para ser eficaz para geração, um espaço latente deve representar de forma concisa semânticas de alto nível. Apresentamos o VTP, um framework unificado de pré-treinamento para tokenizadores visuais, pioneiro na otimização conjunta de perdas de contraste imagem-texto, auto-supervisionadas e de reconstrução. O nosso estudo em larga escala revela duas descobertas principais: (1) a compreensão é um motor chave da geração, e (2) propriedades de escala muito melhores, onde o desempenho generativo escala eficazmente com a computação, parâmetros e dados alocados ao pré-treinamento do tokenizador visual. Após o pré-treinamento em larga escala, o nosso tokenizador apresenta um perfil competitivo (78,2% de precisão zero-shot e 0,36 rFID no ImageNet) e uma convergência 4,1 vezes mais rápida na geração em comparação com métodos avançados de destilação. Mais importante ainda, ele escala eficazmente: sem modificar as especificações padrão de treinamento do DiT, apenas investir mais FLOPS no pré-treinamento do VTP alcança uma melhoria de 65,8% no FID na geração subsequente, enquanto os autoencoders convencionais estagnam muito cedo com 1/10 dos FLOPS. Os nossos modelos pré-treinados estão disponíveis em https://github.com/MiniMax-AI/VTP.
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.