Verso un Addestramento Scalabile di Tokenizzatori Visivi per la Generazione
Towards Scalable Pre-training of Visual Tokenizers for Generation
December 15, 2025
Autori: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI
Abstract
La qualità dello spazio latente nei tokenizzatori visivi (ad esempio, i VAE) è cruciale per i moderni modelli generativi. Tuttavia, il paradigma di addestramento standard basato sulla ricostruzione produce uno spazio latente distorto verso informazioni di basso livello, portando a un difetto di fondo: una migliore accuratezza a livello di pixel non si traduce in una generazione di qualità superiore. Ciò implica che investire massicce risorse computazionali nel pre-addestramento del tokenizzatore visivo si traduce scarsamente in prestazioni migliorate nella generazione. Identifichiamo questo come il "problema di scalabilità del pre-addestramento" e suggeriamo un cambiamento necessario: per essere efficace nella generazione, uno spazio latente deve rappresentare in modo conciso la semantica di alto livello. Presentiamo VTP, un framework unificato per il pre-addestramento di tokenizzatori visivi, pionieristico nell'ottimizzazione congiunta delle loss di contrasto immagine-testo, self-supervised e di ricostruzione. Il nostro studio su larga scala rivela due risultati principali: (1) la comprensione è un fattore chiave per la generazione, e (2) proprietà di scalabilità di gran lunga migliori, dove le prestazioni generative scalano efficacemente con il calcolo, i parametri e i dati allocati per il pre-addestramento del tokenizzatore visivo. Dopo un pre-addestramento su larga scala, il nostro tokenizzatore fornisce un profilo competitivo (78.2% di accuratezza zero-shot e 0.36 rFID su ImageNet) e un convergenza nella generazione 4.1 volte più veloce rispetto ai metodi avanzati di distillazione. Ancora più importante, scala efficacemente: senza modificare le specifiche standard dell'addestramento DiT, investire solo più FLOPS nel pre-addestramento di VTP raggiunge un miglioramento del FID del 65.8% nella generazione downstream, mentre un autoencoder convenzionale ristagna molto precocemente a 1/10 dei FLOPS. I nostri modelli pre-addestrati sono disponibili su https://github.com/MiniMax-AI/VTP.
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.