ChatPaper.aiChatPaper

UniWeTok:統一マルチモーダル大規模言語モデルのためのコードブックサイズ2^{128}を有する統一バイナリトークナイザ

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model

February 15, 2026
著者: Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang
cs.AI

要旨

統一的なマルチモーダル大規模言語モデル(MLLM)には、高精度な再構成、複雑な意味抽出、生成適性を同時にサポートする視覚的表現が求められる。しかし、既存の視覚トークナイザーは通常、単一フレームワーク内でこれらの相反する目標を満たすことに苦戦している。本論文では、大規模な二進コードブック(2^{128})を用いてこのギャップを埋めるように設計された統一離散トークナイザーUniWeTokを提案する。訓練フレームワークにおいては、離散トークンの意味抽出能力と生成事前分布を強化するため、事前事後蒸留と生成認識事前分布を導入する。モデルアーキテクチャの観点では、SigLu活性化関数を備えた畳み込み-注意ハイブリッド構造を提案する。SigLu活性化は、エンコーダ出力を制限して意味蒸留プロセスを安定化させるだけでなく、トークンエントロピー損失とコミットメント損失の間の最適化競合を効果的に解決する。さらに、様々な画像解像度や人物顔や文字コンテンツを含む知覚敏感なシナリオへの適応性を高めるために、3段階の訓練フレームワークを設計した。ImageNetでは、UniWeTokは画像生成性能において最先端の結果(FID: UniWeTok 1.38 vs. REPA 1.42)を達成し、極めて低い訓練計算量(訓練トークン数: UniWeTok 33B vs. REPA 262B)を実現した。一般領域では、UniWeTokはマルチモーダル理解、画像生成(DPGスコア: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84)、編集(GEdit総合スコア: UniWeTok 5.09 vs. OmniGen 5.06)など、幅広いタスクにおいて高い競争力を示した。統一トークナイザーとMLLMのコミュニティによる探求を促進するため、コードとモデルを公開する。
English
Unified Multimodal Large Language Models (MLLMs) require a visual representation that simultaneously supports high-fidelity reconstruction, complex semantic extraction, and generative suitability. However, existing visual tokenizers typically struggle to satisfy these conflicting objectives within a single framework. In this paper, we introduce UniWeTok, a unified discrete tokenizer designed to bridge this gap using a massive binary codebook (2^{128}). For training framework, we introduce Pre-Post Distillation and a Generative-Aware Prior to enhance the semantic extraction and generative prior of the discrete tokens. In terms of model architecture, we propose a convolution-attention hybrid architecture with the SigLu activation function. SigLu activation not only bounds the encoder output and stabilizes the semantic distillation process but also effectively addresses the optimization conflict between token entropy loss and commitment loss. We further propose a three-stage training framework designed to enhance UniWeTok's adaptability cross various image resolutions and perception-sensitive scenarios, such as those involving human faces and textual content. On ImageNet, UniWeTok achieves state-of-the-art image generation performance (FID: UniWeTok 1.38 vs. REPA 1.42) while requiring a remarkably low training compute (Training Tokens: UniWeTok 33B vs. REPA 262B). On general-domain, UniWeTok demonstrates highly competitive capabilities across a broad range of tasks, including multimodal understanding, image generation (DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84), and editing (GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06). We release code and models to facilitate community exploration of unified tokenizer and MLLM.
PDF102February 18, 2026