UniWeTok: Un Tokenizador Binario Unificado con Tamaño de Código 2^{128} para un Modelo de Lenguaje Grande Multimodal Unificado

Resumen

Los Modelos de Lenguaje Grandes Multimodales Unificados (MLLM) requieren una representación visual que simultáneamente admita una reconstrucción de alta fidelidad, una extracción semántica compleja y una idoneidad generativa. Sin embargo, los tokenizadores visuales existentes generalmente luchan por satisfacer estos objetivos conflictivos dentro de un único marco de trabajo. En este artículo, presentamos UniWeTok, un tokenizador discreto unificado diseñado para cerrar esta brecha utilizando un libro de códigos binario masivo (2^{128}). Para el marco de entrenamiento, introducimos la Distilación Pre-Post y un Prior Generativo-Consciente para mejorar la extracción semántica y el prior generativo de los tokens discretos. En términos de arquitectura del modelo, proponemos una arquitectura híbrida de convolución-atención con la función de activación SigLu. La activación SigLu no solo acota la salida del codificador y estabiliza el proceso de destilación semántica, sino que también aborda eficazmente el conflicto de optimización entre la pérdida de entropía del token y la pérdida de compromiso. Además, proponemos un marco de entrenamiento de tres etapas diseñado para mejorar la adaptabilidad de UniWeTok a varias resoluciones de imagen y escenarios sensibles a la percepción, como aquellos que involucran rostros humanos y contenido textual. En ImageNet, UniWeTok logra un rendimiento de generación de imágenes de vanguardia (FID: UniWeTok 1.38 vs. REPA 1.42) mientras requiere un cómputo de entrenamiento notablemente bajo (Tokens de Entrenamiento: UniWeTok 33B vs. REPA 262B). En el dominio general, UniWeTok demuestra capacidades altamente competitivas en una amplia gama de tareas, incluyendo comprensión multimodal, generación de imágenes (Puntuación DPG: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84) y edición (Puntuación General GEdit: UniWeTok 5.09 vs. OmniGen 5.06). Liberamos el código y los modelos para facilitar la exploración comunitaria del tokenizador unificado y los MLLM.

English

Unified Multimodal Large Language Models (MLLMs) require a visual representation that simultaneously supports high-fidelity reconstruction, complex semantic extraction, and generative suitability. However, existing visual tokenizers typically struggle to satisfy these conflicting objectives within a single framework. In this paper, we introduce UniWeTok, a unified discrete tokenizer designed to bridge this gap using a massive binary codebook (2^{128}). For training framework, we introduce Pre-Post Distillation and a Generative-Aware Prior to enhance the semantic extraction and generative prior of the discrete tokens. In terms of model architecture, we propose a convolution-attention hybrid architecture with the SigLu activation function. SigLu activation not only bounds the encoder output and stabilizes the semantic distillation process but also effectively addresses the optimization conflict between token entropy loss and commitment loss. We further propose a three-stage training framework designed to enhance UniWeTok's adaptability cross various image resolutions and perception-sensitive scenarios, such as those involving human faces and textual content. On ImageNet, UniWeTok achieves state-of-the-art image generation performance (FID: UniWeTok 1.38 vs. REPA 1.42) while requiring a remarkably low training compute (Training Tokens: UniWeTok 33B vs. REPA 262B). On general-domain, UniWeTok demonstrates highly competitive capabilities across a broad range of tasks, including multimodal understanding, image generation (DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84), and editing (GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06). We release code and models to facilitate community exploration of unified tokenizer and MLLM.

UniWeTok: Un Tokenizador Binario Unificado con Tamaño de Código 2^{128} para un Modelo de Lenguaje Grande Multimodal Unificado

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model

Resumen

Support