ChatPaper.aiChatPaper

생성 작업을 위한 시각적 토크나이저의 확장 가능한 사전 훈련 방향

Towards Scalable Pre-training of Visual Tokenizers for Generation

December 15, 2025
저자: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI

초록

시각적 토크나이저(예: VAE)의 잠재 공간 품질은 현대 생성 모델에 있어 핵심적입니다. 그러나 표준 재구성 기반 훈련 패러다임은 저수준 정보에 편향된 잠재 공간을 생성하며, 이는 근본적인 결함으로 이어집니다: 더 나은 픽셀 수준 정확성이 더 높은 품질의 생성을 보장하지 않는다는 점입니다. 이는 시각적 토크나이저 사전 훈련에 막대한 계산 자원을 투입해도 생성 성능 향상으로는 효율적으로 이어지지 않음을 시사합니다. 우리는 이를 "사전 훈련 스케일링 문제"로 규정하고, 생성에 효과적이기 위해서는 잠재 공간이 고수준 의미론을 간결하게 표현해야 한다는 필수적인 전환을 제안합니다. 우리는 이미지-텍스트 대조 학습, 자기 지도 학습, 재구성 손실을 결합한 최초의 통합 시각적 토크나이저 사전 훈련 프레임워크인 VTP를 제시합니다. 대규모 연구를 통해 두 가지 주요 결과를 도출했습니다: (1) 이해는 생성의 핵심 동인이며, (2) 시각적 토크나이저 사전 훈련에 할당된 계산량, 매개변수, 데이터에 따라 생성 성능이 효과적으로 스케일되는 훨씬 우수한 스케일링 특성입니다. 대규모 사전 훈련 후, 우리의 토크나이저는 경쟁력 있는 성능(ImageNet 기준 78.2% 제로샷 정확도 및 0.36 rFID)을 보여주며, 고급 증류 방법 대비 4.1배 빠른 생성 수렴 속도를 달성했습니다. 더 중요하게는, 이는 효과적으로 스케일됩니다: 표준 DiT 훈련 사양을 수정하지 않고 오직 VTP 사전 훈련에 더 많은 FLOPS를 투자하면 하류 생성 작업에서 65.8%의 FID 향상을 달성한 반면, 기존 오토인코더는 1/10 FLOPS 수준에서 매우 초기에 성능이 정체되었습니다. 우리의 사전 훈련된 모델은 https://github.com/MiniMax-AI/VTP에서 이용 가능합니다.
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.
PDF783December 17, 2025