Naar schaalbaar vooraf trainen van visuele tokenizers voor generatie
Towards Scalable Pre-training of Visual Tokenizers for Generation
December 15, 2025
Auteurs: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI
Samenvatting
De kwaliteit van de latent space in visuele tokenizers (zoals VAEs) is cruciaal voor moderne generatieve modellen. Het standaard op reconstructie gebaseerde trainingsparadigma produceert echter een latent space die bevooroordeeld is naar laag-niveau informatie, wat leidt tot een fundamenteel mankement: betere pixel-nauwkeurigheid leidt niet tot generatie van hogere kwaliteit. Dit impliceert dat het investeren van uitgebreide rekenkracht in de pre-training van visuele tokenizers slecht vertaalt naar verbeterde prestaties in generatie. Wij identificeren dit als het "pre-training schaalprobleem" en bepleiten een noodzakelijke koerswijziging: om effectief te zijn voor generatie, moet een latent space hoog-niveau semantiek bondig representeren. Wij presenteren VTP, een uniform raamwerk voor pre-training van visuele tokenizers, dat pionierwerk verricht door de gezamenlijke optimalisatie van beeld-tekst contrastieve, zelf-gesuperviseerde en reconstructieverliezen. Onze grootschalige studie onthult twee hoofdbevindingen: (1) begrip is een cruciale drijver van generatie, en (2) aanzienlijk betere schaaleigenschappen, waarbij generatieve prestaties effectief schalen met rekenkracht, parameters en data toegewezen aan de pre-training van de visuele tokenizer. Na grootschalige pre-training biedt onze tokenizer een competitief profiel (78.2 zero-shot nauwkeurigheid en 0.36 rFID op ImageNet) en 4.1 keer snellere convergentie bij generatie in vergelijking met geavanceerde distillatiemethoden. Belangrijker nog, hij schaalt effectief: zonder aanpassing van standaard DiT-trainingsspecificaties, bereikt louter het investeren van meer FLOPS in de pre-training van VTP een verbetering van 65.8% in FID voor downstream generatie, terwijl conventionele auto-encoders al zeer vroeg stagneren bij 1/10 van de FLOPS. Onze vooraf getrainde modellen zijn beschikbaar op https://github.com/MiniMax-AI/VTP.
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.