Geünificeerde multimodale autoregressieve modellering met gedeelde context-visuele tokenizer is de sleutel tot unificatie

Samenvatting

Unified multimodale modellering streeft ernaar visueel begrip en generatie te integreren in één enkel systeem. Bestaande benaderingen vertrouwen echter doorgaans op twee verschillende visuele tokenizers, wat de representatieruimte opsplitst en een werkelijk verenigde modellering belemmert. Wij stellen UniAR voor, een verenigd autoregressief raamwerk waarin één enkele discrete visuele tokenizer fungeert als de cruciale brug tussen begrip en generatie, waardoor een gedeelde context ontstaat waarin het model zijn eigen gegenereerde visuele tokens direct kan interpreteren zonder extra hercodering. UniAR past een voorgetrainde visuele encoder aan met multilevel kenmerkfusie en een opzoekvrij bitsgewijs kwantisatieschema, waardoor zowel hoog-niveau semantiek als laag-niveau details behouden blijven, terwijl de effectieve visuele woordenschat wordt opgeschaald tegen minimale kosten. Hierop voortbouwend hanteert het verenigde autoregressieve model parallelle bitsgewijze voorspelling om ruimtelijk gegroepeerde, multilevel visuele codes gezamenlijk te voorspellen, wat de visuele sequentielengte aanzienlijk verkort en de generatie versnelt. Tot slot decodeert een op diffusie gebaseerde visuele decoder discrete visuele tokens om hifi-afbeeldingen te genereren. Door grootschalige voortraining, gevolgd door begeleide fine-tuning en versterkend leren, behaalt UniAR state-of-the-art prestaties op beeldgeneratie en beeldbewerking, terwijl het concurrerend blijft op multimodale begripsbenchmarks. De projectpagina is beschikbaar op https://sharelab-sii.github.io/uniar-web.

English

Unified Multimodal Modeling aims to integrate visual understanding and generation within a single system. However, existing approaches typically rely on two disparate visual tokenizers, which splits the representation space and hinders truly unified modeling. We propose UniAR, a unified autoregressive framework where a single discrete visual tokenizer serves as the key bridge between understanding and generation, enabling a shared context in which the model can directly interpret its own generated visual tokens without additional re-encoding. UniAR adapts a pretrained vision encoder with multi-level feature fusion and a lookup-free bitwise quantization scheme, preserving both high-level semantics and low-level details while scaling the effective visual vocabulary at minimal cost. Building on this, the unified autoregressive model adopts parallel-bitwise-prediction to jointly predict spatially grouped, multi-level visual codes, substantially reducing visual sequence length and accelerating generation. Finally, a diffusion-based visual decoder operates on discrete visual tokens to decode high-fidelity images. Through large-scale pre-training, followed by supervised fine-tuning and reinforcement learning, UniAR achieves state-of-the-art performance on image generation and image editing while remaining competitive on multimodal understanding benchmarks. The project page is available at https://sharelab-sii.github.io/uniar-web.