К созданию масштабируемых методов предварительного обучения визуальных токенизаторов для задач генерации
Towards Scalable Pre-training of Visual Tokenizers for Generation
December 15, 2025
Авторы: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI
Аннотация
Качество латентного пространства в визуальных токенизаторах (например, VAEs) имеет решающее значение для современных генеративных моделей. Однако стандартная парадигма обучения, основанная на реконструкции, порождает латентное пространство, смещенное в сторону низкоуровневой информации, что приводит к фундаментальному недостатку: лучшая точность на пиксельном уровне не приводит к генерации более высокого качества. Это означает, что значительные вычислительные ресурсы, вложенные в предварительное обучение визуального токенизатора, слабо трансформируются в улучшение генеративных характеристик. Мы определяем это как «проблему масштабирования предварительного обучения» и предлагаем необходимый сдвиг парадигмы: чтобы быть эффективным для генерации, латентное пространство должно компактно представлять высокоуровневую семантику. Мы представляем VTP, унифицированную структуру для предварительного обучения визуального токенизатора, впервые реализующую совместную оптимизацию контрастивных image-text, самоконтролируемых и реконструкционных потерь. Наше крупномасштабное исследование выявляет два ключевых результата: (1) понимание является ключевым драйвером генерации и (2) значительно лучшие свойства масштабирования, при которых генеративная производительность эффективно масштабируется с вычислительными ресурсами, параметрами и данными, выделенными на предварительное обучение токенизатора. После крупномасштабного предварительного обучения наш токенизатор демонстрирует конкурентоспособные показатели (78.2% zero-shot accuracy и 0.36 rFID на ImageNet) и в 4.1 раза более быструю сходимость при генерации по сравнению с передовыми методами дистилляции. Что более важно, он эффективно масштабируется: без изменения стандартных параметров обучения DiT, исключительно за счет увеличения FLOPS, инвестированных в предварительное обучение VTP, достигается улучшение FID на 65.8% в нисходящей генерации, в то время как традиционный автоэнкодер стагнирует очень рано, уже на 1/10 от этих вычислительных затрат. Наши предварительно обученные модели доступны по адресу https://github.com/MiniMax-AI/VTP.
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.