ChatPaper.aiChatPaper

Auf dem Weg zu skalierbarem Pre-Training von visuellen Tokenizern für die Generierung

Towards Scalable Pre-training of Visual Tokenizers for Generation

December 15, 2025
papers.authors: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI

papers.abstract

Die Qualität des latenten Raums in visuellen Tokenizern (z.B. VAEs) ist entscheidend für moderne generative Modelle. Das standardmäßige, rekonstruktionsbasierte Trainingsparadigma erzeugt jedoch einen latenten Raum, der zu Low-Level-Informationen hin verzerrt ist, was zu einem grundlegenden Fehler führt: Bessere Pixelgenauigkeit führt nicht zu höherer Generierungsqualität. Dies impliziert, dass der Aufwand umfangreicher Rechenressourcen für das Pre-Training visueller Tokenizer nur geringfügig zu verbesserter Generierungsleistung beiträgt. Wir identifizieren dies als das "Pre-Training-Scaling-Problem" und schlagen einen notwendigen Paradigmenwechsel vor: Um effektiv für die Generierung zu sein, muss ein latenter Raum hochlevelige Semantik prägnant repräsentieren. Wir stellen VTP vor, ein vereinheitlichtes Pre-Training-Framework für visuelle Tokenizer, das Pionierarbeit bei der gemeinsamen Optimierung von Bild-Text-Kontrastiv-, Self-Supervised- und Rekonstruktionsverlusten leistet. Unsere großangelegte Studie offenbart zwei Haupterkenntnisse: (1) Semantisches Verständnis ist ein Schlüsseltreiber für Generierung und (2) deutlich bessere Skalierungseigenschaften, bei denen die Generierungsleistung effektiv mit den für das Pre-Training des visuellen Tokenizers aufgewendeten Rechenoperationen, Parametern und Daten skaliert. Nach großvolumigem Pre-Training weist unser Tokenizer ein wettbewerbsfähiges Profil auf (78,2 % Zero-Shot-Genauigkeit und 0,36 rFID auf ImageNet) und eine 4,1-fach schnellere Konvergenz bei der Generierung im Vergleich zu fortgeschrittenen Distillationsmethoden. Noch wichtiger ist, dass er effektiv skaliert: Ohne Modifikation der standardmäßigen DiT-Trainingsspezifikationen erzielt allein die Investition von mehr FLOPS in das Pre-Training von VTP eine 65,8 %ige FID-Verbesserung in der nachgelagerten Generierung, während konventionelle Autoencoder bereits sehr früh bei 1/10 der FLOPS stagnieren. Unsere vortrainierten Modelle sind verfügbar unter https://github.com/MiniMax-AI/VTP.
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.
PDF783December 17, 2025