ChatPaper.aiChatPaper

Vers une pré-entraînement évolutif de tokeniseurs visuels pour la génération

Towards Scalable Pre-training of Visual Tokenizers for Generation

December 15, 2025
papers.authors: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI

papers.abstract

La qualité de l'espace latent dans les tokeniseurs visuels (par exemple, les VAE) est cruciale pour les modèles génératifs modernes. Cependant, le paradigme d'entraînement standard basé sur la reconstruction produit un espace latent biaisé en faveur des informations de bas niveau, conduisant à un défaut fondamental : une meilleure précision au niveau pixel n'engendre pas une génération de plus haute qualité. Cela implique qu'investir massivement en calcul dans le pré-entraînement du tokeniseur visuel se traduit mal en une amélioration des performances génératives. Nous identifions ceci comme le « problème de mise à l'échelle du pré-entraînement » et suggérons un changement nécessaire : pour être efficace en génération, un espace latent doit représenter de manière concise la sémantique de haut niveau. Nous présentons VTP, un framework unifié de pré-entraînement pour tokeniseurs visuels, pionnier dans l'optimisation conjointe des pertes de contraste image-texte, auto-supervisée et de reconstruction. Notre étude à grande échelle révèle deux résultats principaux : (1) la compréhension est un moteur clé de la génération, et (2) de bien meilleures propriétés de mise à l'échelle, où les performances génératives s'améliorent efficacement avec le calcul, les paramètres et les données alloués au pré-entraînement du tokeniseur visuel. Après un pré-entraînement à grande échelle, notre tokeniseur offre un profil compétitif (78.2% de précision zero-shot et 0.36 rFID sur ImageNet) et une convergence 4.1 fois plus rapide en génération par rapport aux méthodes de distillation avancées. Plus important encore, il est efficacement scalable : sans modifier les spécifications d'entraînement DiT standard, le simple fait d'investir plus de FLOPS dans le pré-entraînement de VTP permet une amélioration du FID de 65.8% en génération en aval, tandis qu'un autoencodeur conventionnel stagne très tôt à 1/10ème des FLOPS. Nos modèles pré-entraînés sont disponibles à l'adresse https://github.com/MiniMax-AI/VTP.
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.
PDF783December 17, 2025