Vereinheitlichte multimodale autoregressive Modellierung mit gemeinsamem Kontext-Visual-Tokenisierer ist der Schlüssel zur Vereinheitlichung

Zusammenfassung

Unified Multimodal Modeling zielt darauf ab, visuelles Verständnis und Generierung in einem einzigen System zu integrieren. Allerdings stützen sich bestehende Ansätze typischerweise auf zwei unterschiedliche visuelle Tokenizer, was den Repräsentationsraum aufteilt und eine wirklich einheitliche Modellierung behindert. Wir schlagen UniAR vor, ein einheitliches autoregressives Framework, bei dem ein einziger diskreter visueller Tokenizer als zentrale Brücke zwischen Verständnis und Generierung dient und einen gemeinsamen Kontext ermöglicht, in dem das Modell seine eigenen erzeugten visuellen Tokens ohne zusätzliche Neukodierung direkt interpretieren kann. UniAR adaptiert einen vortrainierten Vision-Encoder mit mehrstufiger Merkmalsfusion und einem lookup-freien bitweisen Quantisierungsschema, wodurch sowohl hochrangige Semantik als auch niedrigrangige Details erhalten bleiben, während das effektive visuelle Vokabular zu minimalen Kosten skaliert wird. Darauf aufbauend verwendet das einheitliche autoregressive Modell eine parallele bitweise Vorhersage, um räumlich gruppierte, mehrstufige visuelle Codes gemeinsam vorherzusagen, wodurch die visuelle Sequenzlänge erheblich reduziert und die Generierung beschleunigt wird. Schließlich arbeitet ein diffusionsbasierter visueller Decoder auf diskreten visuellen Tokens, um hochgetreue Bilder zu dekodieren. Durch groß angelegtes Pre-Training, gefolgt von überwachtem Fine-Tuning und Reinforcement Learning, erreicht UniAR eine Spitzenleistung bei Bildgenerierung und Bildbearbeitung und bleibt gleichzeitig wettbewerbsfähig bei Benchmarks für multimodales Verständnis. Die Projektseite ist verfügbar unter https://sharelab-sii.github.io/uniar-web.

English

Unified Multimodal Modeling aims to integrate visual understanding and generation within a single system. However, existing approaches typically rely on two disparate visual tokenizers, which splits the representation space and hinders truly unified modeling. We propose UniAR, a unified autoregressive framework where a single discrete visual tokenizer serves as the key bridge between understanding and generation, enabling a shared context in which the model can directly interpret its own generated visual tokens without additional re-encoding. UniAR adapts a pretrained vision encoder with multi-level feature fusion and a lookup-free bitwise quantization scheme, preserving both high-level semantics and low-level details while scaling the effective visual vocabulary at minimal cost. Building on this, the unified autoregressive model adopts parallel-bitwise-prediction to jointly predict spatially grouped, multi-level visual codes, substantially reducing visual sequence length and accelerating generation. Finally, a diffusion-based visual decoder operates on discrete visual tokens to decode high-fidelity images. Through large-scale pre-training, followed by supervised fine-tuning and reinforcement learning, UniAR achieves state-of-the-art performance on image generation and image editing while remaining competitive on multimodal understanding benchmarks. The project page is available at https://sharelab-sii.github.io/uniar-web.