NativeTok: Tokenizzazione Visiva Nativa per un Miglioramento della Generazione di Immagini

Abstract

La generazione di immagini basata su VQ segue tipicamente una pipeline a due stadi: un tokenizer codifica le immagini in token discreti, e un modello generativo apprende le loro dipendenze per la ricostruzione. Tuttavia, un tokenizzazione migliorata nel primo stadio non necessariamente potenzia la generazione nel secondo stadio, poiché i metodi esistenti non riescono a vincolare le dipendenze tra i token. Questo disallineamento costringe il modello generativo ad apprendere da distribuzioni non ordinate, portando a bias e scarsa coerenza. Per risolvere ciò, proponiamo una tokenizzazione visiva nativa, che applica dipendenze causali durante la tokenizzazione. Sviluppando questa idea, introduciamo NativeTok, un framework che ottiene una ricostruzione efficiente incorporando vincoli relazionali all'interno delle sequenze di token. NativeTok è composto da: (1) un Meta Image Transformer (MIT) per la modellazione di immagini latenti, e (2) un Mixture of Causal Expert Transformer (MoCET), in cui ogni blocco esperto leggero genera un singolo token condizionato dai token precedenti e dalle caratteristiche latenti. Progettiamo inoltre una strategia di Addestramento Nativo Gerarchico che aggiorna solo i nuovi blocchi esperti, garantendo efficienza nell'addestramento. Esperimenti estesi dimostrano l'efficacia di NativeTok.

English

VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.

NativeTok: Tokenizzazione Visiva Nativa per un Miglioramento della Generazione di Immagini

NativeTok: Native Visual Tokenization for Improved Image Generation

Abstract

Support