ChatPaper.aiChatPaper

NativeTok: Native visuelle Tokenisierung für verbesserte Bildgenerierung

NativeTok: Native Visual Tokenization for Improved Image Generation

January 30, 2026
papers.authors: Bin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao
cs.AI

papers.abstract

VQ-basierte Bildgenerierung folgt typischerweise einer Zwei-Stufen-Pipeline: Ein Tokenizer kodiert Bilder in diskrete Tokens, und ein generatives Modell erlernt deren Abhängigkeiten zur Rekonstruktion. Verbesserte Tokenisierung in der ersten Stufe steigert jedoch nicht zwangsläufig die Generierung in der zweiten Stufe, da bestehende Methoden keine Abhängigkeitsbedingungen für die Tokens vorgeben. Diese Diskrepanz zwingt das generative Modell, aus ungeordneten Verteilungen zu lernen, was zu Verzerrungen und schwacher Kohärenz führt. Um dies zu adressieren, schlagen wir native visuelle Tokenisierung vor, die kausale Abhängigkeiten während der Tokenisierung erzwingt. Aufbauend auf dieser Idee führen wir NativeTok ein – ein Framework, das effiziente Rekonstruktion erreicht und gleichzeitig relationale Constraints in Token-Sequenzen einbettet. NativeTok besteht aus: (1) einem Meta Image Transformer (MIT) zur latenten Bildmodellierung und (2) einem Mixture of Causal Expert Transformer (MoCET), bei dem jeder leichtgewichtige Expertenblock einen einzelnen Token unter Bedingung vorheriger Tokens und latenter Merkmale generiert. Wir entwickeln zudem eine Hierarchische Native Trainingsstrategie, die nur neue Expertenblöcke aktualisiert und so Trainingseffizienz gewährleistet. Umfangreiche Experimente belegen die Wirksamkeit von NativeTok.
English
VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.
PDF92February 3, 2026