La modélisation autorégressive multimodale unifiée avec un tokenizer contexte-visuel partagé est la clé de l'unification.

Résumé

La modélisation multimodale unifiée vise à intégrer la compréhension visuelle et la génération au sein d'un seul système. Cependant, les approches existantes reposent généralement sur deux tokeniseurs visuels disparates, ce qui divise l'espace de représentation et entrave une modélisation véritablement unifiée. Nous proposons UniAR, un cadre autorégressif unifié dans lequel un unique tokeniseur visuel discret sert de pont clé entre la compréhension et la génération, permettant un contexte partagé dans lequel le modèle peut interpréter directement ses propres tokens visuels générés sans réencodage supplémentaire. UniAR adapte un encodeur de vision pré-entraîné avec une fusion de caractéristiques multi-niveaux et un schéma de quantification binaire sans table de correspondance, préservant à la fois la sémantique de haut niveau et les détails de bas niveau tout en augmentant le vocabulaire visuel effectif à un coût minimal. Sur cette base, le modèle autorégressif unifié adopte la prédiction binaire parallèle pour prédire conjointement des codes visuels multi-niveaux regroupés spatialement, réduisant considérablement la longueur de la séquence visuelle et accélérant la génération. Enfin, un décodeur visuel basé sur la diffusion opère sur les tokens visuels discrets pour décoder des images haute fidélité. Grâce à un pré-entraînement à grande échelle, suivi d'un fine-tuning supervisé et d'un apprentissage par renforcement, UniAR atteint des performances de pointe en génération d'images et édition d'images tout en restant compétitif sur les benchmarks de compréhension multimodale. La page du projet est disponible à l'adresse https://sharelab-sii.github.io/uniar-web.

English

Unified Multimodal Modeling aims to integrate visual understanding and generation within a single system. However, existing approaches typically rely on two disparate visual tokenizers, which splits the representation space and hinders truly unified modeling. We propose UniAR, a unified autoregressive framework where a single discrete visual tokenizer serves as the key bridge between understanding and generation, enabling a shared context in which the model can directly interpret its own generated visual tokens without additional re-encoding. UniAR adapts a pretrained vision encoder with multi-level feature fusion and a lookup-free bitwise quantization scheme, preserving both high-level semantics and low-level details while scaling the effective visual vocabulary at minimal cost. Building on this, the unified autoregressive model adopts parallel-bitwise-prediction to jointly predict spatially grouped, multi-level visual codes, substantially reducing visual sequence length and accelerating generation. Finally, a diffusion-based visual decoder operates on discrete visual tokens to decode high-fidelity images. Through large-scale pre-training, followed by supervised fine-tuning and reinforcement learning, UniAR achieves state-of-the-art performance on image generation and image editing while remaining competitive on multimodal understanding benchmarks. The project page is available at https://sharelab-sii.github.io/uniar-web.