ChatPaper.aiChatPaper

NativeTok: Tokenización Visual Nativa para Mejorar la Generación de Imágenes

NativeTok: Native Visual Tokenization for Improved Image Generation

January 30, 2026
Autores: Bin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao
cs.AI

Resumen

La generación de imágenes basada en VQ (Vector Quantization) generalmente sigue un pipeline de dos etapas: un tokenizador codifica las imágenes en tokens discretos, y un modelo generativo aprende sus dependencias para la reconstrucción. Sin embargo, una tokenización mejorada en la primera etapa no necesariamente mejora la generación en la segunda etapa, ya que los métodos existentes no logran restringir las dependencias entre tokens. Este desajuste obliga al modelo generativo a aprender a partir de distribuciones no ordenadas, lo que genera sesgos y baja coherencia. Para abordar este problema, proponemos la tokenización visual nativa, que impone dependencias causales durante la tokenización. Basándonos en esta idea, presentamos NativeTok, un marco que logra una reconstrucción eficiente mientras incorpora restricciones relacionales dentro de las secuencias de tokens. NativeTok consta de: (1) un Meta Transformer de Imágenes (MIT) para el modelado latente de imágenes, y (2) una Mezcla de Transformer de Expertos Causales (MoCET), donde cada bloque experto ligero genera un único token condicionado por tokens previos y características latentes. Además, diseñamos una estrategia de Entrenamiento Nativo Jerárquico que actualiza únicamente los nuevos bloques expertos, garantizando la eficiencia del entrenamiento. Experimentos exhaustivos demuestran la efectividad de NativeTok.
English
VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.
PDF92February 3, 2026