NativeTok: Tokenização Visual Nativa para Geração Aprimorada de Imagens

Resumo

A geração de imagens baseada em VQ (Vector Quantization) segue tipicamente um pipeline de dois estágios: um tokenizador codifica as imagens em *tokens* discretos, e um modelo generativo aprende as suas dependências para reconstrução. Contudo, a melhoria na tokenização na primeira etapa não necessariamente melhora a geração na segunda etapa, uma vez que os métodos existentes não conseguem restringir as dependências entre *tokens*. Este desajuste força o modelo generativo a aprender a partir de distribuições não ordenadas, resultando em *bias* e fraca coerência. Para resolver isto, propomos uma tokenização visual nativa, que impõe dependências causais durante a tokenização. Com base nesta ideia, introduzimos o **NativeTok**, um *framework* que alcança uma reconstrução eficiente enquanto incorpora restrições relacionais nas sequências de *tokens*. O NativeTok é composto por: (1) um *Meta Image Transformer* (MIT) para modelar a imagem latente, e (2) uma *Mixture of Causal Expert Transformer* (MoCET), na qual cada bloco especialista (*expert*) leve gera um único *token* condicionado aos *tokens* anteriores e às características latentes. Projetamos ainda uma estratégia de *Hierarchical Native Training* que atualiza apenas os novos blocos especialistas, garantindo a eficiência do treino. Experiências extensivas demonstram a eficácia do NativeTok.

English

VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.

NativeTok: Tokenização Visual Nativa para Geração Aprimorada de Imagens

NativeTok: Native Visual Tokenization for Improved Image Generation

Resumo

Support