生成のための視覚的トークナイザーのスケーラブルな事前学習に向けて
Towards Scalable Pre-training of Visual Tokenizers for Generation
December 15, 2025
著者: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI
要旨
視覚トークナイザ(VAEなど)における潜在空間の質は、現代の生成モデルにとって極めて重要である。しかし、標準的な再構成ベースの訓練パラダイムは低レベル情報に偏った潜在空間を生み出し、根本的な欠陥を引き起こしている:ピクセルレベルの精度向上が生成品質の向上につながらないのである。これは、視覚トークナイザの事前学習に多大な計算資源を投入しても、生成性能の改善にはほとんど寄与しないことを意味する。我々はこれを「事前学習のスケーリング問題」と定義し、効果的な生成のためには潜在空間が高レベル意味情報を簡潔に表現する必要があるというパラダイム転換を提唱する。本論文では、統合型視覚トークナイザ事前学習フレームワークVTPを提案し、画像-テキスト対比損失・自己教師あり損失・再構成損失の共同最適化を先駆的に実現する。大規模実験により二つの主要な知見を得た:(1)理解能力が生成性能の鍵となる駆動力であること、(2)従来より優れたスケーリング特性(トークナイザ事前学習に割り当てる計算量・パラメータ数・データ量に対して生成性能が効率的に向上すること)である。大規模事前学習後、当トークナイザは競合性能(ImageNetでゼロショット精度78.2%、rFID 0.36)を達成し、先進的な蒸留手法と比べて生成タスクで4.1倍の収束速度を実現した。さらに重要なのはその効率的なスケーリング性である:標準DiT訓練設定を変更せず、VTP事前学習に更多のFLOPSを投入するだけで下流生成タスクで65.8%のFID改善を達成したのに対し、従来のオートエンコーダはその10分の1のFLOPS時点で早期に性能が頭打ちとなった。事前学習モデルはhttps://github.com/MiniMax-AI/VTPで公開している。
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.