El modelado autorregresivo multimodal unificado con tokenizer contexto-visual compartido es clave para la unificación.

Resumen

El Modelado Multimodal Unificado tiene como objetivo integrar la comprensión y generación visual en un solo sistema. Sin embargo, los enfoques existentes típicamente dependen de dos tokenizadores visuales dispares, lo que divide el espacio de representación y dificulta un modelado verdaderamente unificado. Proponemos UniAR, un marco autorregresivo unificado donde un único tokenizador visual discreto actúa como puente clave entre comprensión y generación, permitiendo un contexto compartido en el que el modelo puede interpretar directamente sus propios tokens visuales generados sin necesidad de recodificación adicional. UniAR adapta un codificador visual preentrenado con fusión de características multinivel y un esquema de cuantización bitwise sin búsqueda, preservando tanto la semántica de alto nivel como los detalles de bajo nivel, mientras escala el vocabulario visual efectivo a un costo mínimo. Sobre esta base, el modelo autorregresivo unificado adopta la predicción bitwise paralela para predecir conjuntamente códigos visuales multinivel agrupados espacialmente, reduciendo sustancialmente la longitud de la secuencia visual y acelerando la generación. Finalmente, un decodificador visual basado en difusión opera sobre tokens visuales discretos para decodificar imágenes de alta fidelidad. Mediante un preentrenamiento a gran escala, seguido de un ajuste fino supervisado y aprendizaje por refuerzo, UniAR logra un rendimiento de vanguardia en generación y edición de imágenes, manteniéndose competitivo en evaluaciones de comprensión multimodal. La página del proyecto está disponible en https://sharelab-sii.github.io/uniar-web.

English

Unified Multimodal Modeling aims to integrate visual understanding and generation within a single system. However, existing approaches typically rely on two disparate visual tokenizers, which splits the representation space and hinders truly unified modeling. We propose UniAR, a unified autoregressive framework where a single discrete visual tokenizer serves as the key bridge between understanding and generation, enabling a shared context in which the model can directly interpret its own generated visual tokens without additional re-encoding. UniAR adapts a pretrained vision encoder with multi-level feature fusion and a lookup-free bitwise quantization scheme, preserving both high-level semantics and low-level details while scaling the effective visual vocabulary at minimal cost. Building on this, the unified autoregressive model adopts parallel-bitwise-prediction to jointly predict spatially grouped, multi-level visual codes, substantially reducing visual sequence length and accelerating generation. Finally, a diffusion-based visual decoder operates on discrete visual tokens to decode high-fidelity images. Through large-scale pre-training, followed by supervised fine-tuning and reinforcement learning, UniAR achieves state-of-the-art performance on image generation and image editing while remaining competitive on multimodal understanding benchmarks. The project page is available at https://sharelab-sii.github.io/uniar-web.