NativeTok : Tokenisation Visuelle Native pour une Génération d'Images Améliorée
NativeTok: Native Visual Tokenization for Improved Image Generation
January 30, 2026
papers.authors: Bin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao
cs.AI
papers.abstract
La génération d'images basée sur VQ suit généralement un pipeline en deux étapes : un tokenizer encode les images en tokens discrets, puis un modèle génératif apprend leurs dépendances pour la reconstruction. Cependant, l'amélioration de la tokenisation dans la première étape n'améliore pas nécessairement la génération en deuxième étape, car les méthodes existantes échouent à contraindre les dépendances entre tokens. Cette inadéquation force le modèle génératif à apprendre à partir de distributions non ordonnées, entraînant des biais et une faible cohérence. Pour résoudre ce problème, nous proposons une tokenisation visuelle native, qui impose des dépendances causales pendant la tokenisation. Sur cette base, nous présentons NativeTok, un cadre qui permet une reconstruction efficace tout en intégrant des contraintes relationnelles dans les séquences de tokens. NativeTok se compose de : (1) un Meta Image Transformer (MIT) pour la modélisation latente d'images, et (2) un Mixture of Causal Expert Transformer (MoCET), où chaque bloc expert léger génère un seul token conditionné par les tokens antérieurs et les caractéristiques latentes. Nous concevons en outre une stratégie d’apprentissage natif hiérarchique qui ne met à jour que les nouveaux blocs experts, garantissant ainsi l'efficacité de l'entraînement. Des expériences approfondies démontrent l'efficacité de NativeTok.
English
VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.