ChatPaper.aiChatPaper

UniWeTok: 통합 멀티모달 대규모 언어 모델을 위한 코드북 크기 2^{128}의 통합 이진 토크나이저

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model

February 15, 2026
저자: Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang
cs.AI

초록

통합 멀티모달 대규모 언어 모델(MLLM)은 높은 정밀도의 재구성, 복잡한 의미 추출, 생성 적합성을 동시에 지원하는 시각적 표현이 필요합니다. 그러나 기존 시각적 토크나이저는 일반적으로 단일 프레임워크 내에서 이러한 상충되는 목표를 충족시키는 데 어려움을 겪습니다. 본 논문에서는 대규모 이진 코드북(2^{128})을 활용하여 이러한 격차를 해소하기 위해 설계된 통합 이산 토크나이저인 UniWeTok을 소개합니다. 학습 프레임워크 측면에서는 이산 토큰의 의미 추출 및 생성 사전 지식을 향상시키기 위해 Pre-Post Distillation과 Generative-Aware Prior를 도입했습니다. 모델 아키텍처 측면에서는 SigLu 활성화 함수를 적용한 합성곱-어텐션 하이브리드 아키텍처를 제안합니다. SigLu 활성화는 인코더 출력을 제한하고 의미 추출 과정을 안정화할 뿐만 아니라 토큰 엔트로피 손실과 약속 손실 간의 최적화 충돌을 효과적으로 해결합니다. 또한 다양한 이미지 해상도와 인간 얼굴, 텍스트 콘텐츠와 같은 인식에 민감한 시나리오에서 UniWeTok의 적응성을 향상시키도록 설계된 3단계 학습 프레임워크를 제안합니다. ImageNet에서 UniWeTok은 현저히 낮은 학습 계산량(학습 토큰: UniWeTok 33B vs. REPA 262B)을 요구하면서도 최첨단 이미지 생성 성능(FID: UniWeTok 1.38 vs. REPA 1.42)을 달성했습니다. 일반 영역에서 UniWeTok은 멀티모달 이해, 이미지 생성(DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84), 편집(GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06)을 포함한 광범위한 작업에서 매우 경쟁력 있는 성능을 입증했습니다. 통합 토크나이저와 MLLM에 대한 커뮤니티의 탐구를 지원하기 위해 코드와 모델을 공개합니다.
English
Unified Multimodal Large Language Models (MLLMs) require a visual representation that simultaneously supports high-fidelity reconstruction, complex semantic extraction, and generative suitability. However, existing visual tokenizers typically struggle to satisfy these conflicting objectives within a single framework. In this paper, we introduce UniWeTok, a unified discrete tokenizer designed to bridge this gap using a massive binary codebook (2^{128}). For training framework, we introduce Pre-Post Distillation and a Generative-Aware Prior to enhance the semantic extraction and generative prior of the discrete tokens. In terms of model architecture, we propose a convolution-attention hybrid architecture with the SigLu activation function. SigLu activation not only bounds the encoder output and stabilizes the semantic distillation process but also effectively addresses the optimization conflict between token entropy loss and commitment loss. We further propose a three-stage training framework designed to enhance UniWeTok's adaptability cross various image resolutions and perception-sensitive scenarios, such as those involving human faces and textual content. On ImageNet, UniWeTok achieves state-of-the-art image generation performance (FID: UniWeTok 1.38 vs. REPA 1.42) while requiring a remarkably low training compute (Training Tokens: UniWeTok 33B vs. REPA 262B). On general-domain, UniWeTok demonstrates highly competitive capabilities across a broad range of tasks, including multimodal understanding, image generation (DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84), and editing (GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06). We release code and models to facilitate community exploration of unified tokenizer and MLLM.
PDF102February 18, 2026