ChatPaper.aiChatPaper

Hacia un Preentrenamiento Escalable de Tokenizadores Visuales para Generación

Towards Scalable Pre-training of Visual Tokenizers for Generation

December 15, 2025
Autores: Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
cs.AI

Resumen

La calidad del espacio latente en tokenizadores visuales (por ejemplo, VAEs) es crucial para los modelos generativos modernos. Sin embargo, el paradigma de entrenamiento estándar basado en reconstrucción produce un espacio latente sesgado hacia información de bajo nivel, lo que conduce a un defecto fundamental: una mejor precisión a nivel de píxel no se traduce en una generación de mayor calidad. Esto implica que invertir grandes recursos computacionales en el preentrenamiento del tokenizador visual se traduce pobremente en una mejora del rendimiento generativo. Identificamos esto como el "problema de escalado del preentrenamiento" y sugerimos un cambio necesario: para ser efectivo para la generación, un espacio latente debe representar de manera concisa semántica de alto nivel. Presentamos VTP, un marco unificado de preentrenamiento para tokenizadores visuales, pionero en la optimización conjunta de pérdidas de contraste imagen-texto, auto-supervisadas y de reconstrucción. Nuestro estudio a gran escala revela dos hallazgos principales: (1) la comprensión es un motor clave de la generación, y (2) propiedades de escalado mucho mejores, donde el rendimiento generativo escala efectivamente con el cómputo, los parámetros y los datos asignados al preentrenamiento del tokenizador visual. Tras un preentrenamiento a gran escala, nuestro tokenizador ofrece un perfil competitivo (78.2% de precisión zero-shot y 0.36 rFID en ImageNet) y una convergencia 4.1 veces más rápida en generación en comparación con métodos avanzados de destilación. Más importante aún, escala efectivamente: sin modificar las especificaciones estándar de entrenamiento DiT, invertir únicamente más FLOPS en el preentrenamiento de VTP logra una mejora del 65.8% en FID en la generación subsiguiente, mientras que el autoencoder convencional se estanca muy pronto a 1/10 de los FLOPS. Nuestros modelos preentrenados están disponibles en https://github.com/MiniMax-AI/VTP.
English
The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.
PDF783December 17, 2025