Modelagem Autoregressiva Multimodal Unificada com Tokenizador Contexto-Visual Compartilhado é a Chave para a Unificação

Resumo

Modelagem Multimodal Unificada visa integrar compreensão visual e geração em um único sistema. No entanto, abordagens existentes geralmente dependem de dois tokenizadores visuais díspares, o que divide o espaço de representação e dificulta uma modelagem verdadeiramente unificada. Propomos UniAR, um framework autorregressivo unificado no qual um único tokenizador visual discreto serve como a principal ponte entre compreensão e geração, possibilitando um contexto compartilhado em que o modelo pode interpretar diretamente seus próprios tokens visuais gerados sem necessidade de recodificação adicional. O UniAR adapta um codificador visual pré-treinado com fusão de características em múltiplos níveis e um esquema de quantização bitwise sem consulta, preservando tanto semânticas de alto nível quanto detalhes de baixo nível, enquanto escala o vocabulário visual efetivo a um custo mínimo. Com base nisso, o modelo autorregressivo unificado adota predição bitwise paralela para prever conjuntamente códigos visuais agrupados espacialmente em múltiplos níveis, reduzindo substancialmente o comprimento da sequência visual e acelerando a geração. Por fim, um decodificador visual baseado em difusão opera sobre tokens visuais discretos para decodificar imagens de alta fidelidade. Por meio de pré-treinamento em larga escala, seguido de ajuste fino supervisionado e aprendizado por reforço, o UniAR alcança desempenho de estado da arte em geração de imagens e edição de imagens, mantendo-se competitivo em benchmarks de compreensão multimodal. O site do projeto está disponível em https://sharelab-sii.github.io/uniar-web.

English

Unified Multimodal Modeling aims to integrate visual understanding and generation within a single system. However, existing approaches typically rely on two disparate visual tokenizers, which splits the representation space and hinders truly unified modeling. We propose UniAR, a unified autoregressive framework where a single discrete visual tokenizer serves as the key bridge between understanding and generation, enabling a shared context in which the model can directly interpret its own generated visual tokens without additional re-encoding. UniAR adapts a pretrained vision encoder with multi-level feature fusion and a lookup-free bitwise quantization scheme, preserving both high-level semantics and low-level details while scaling the effective visual vocabulary at minimal cost. Building on this, the unified autoregressive model adopts parallel-bitwise-prediction to jointly predict spatially grouped, multi-level visual codes, substantially reducing visual sequence length and accelerating generation. Finally, a diffusion-based visual decoder operates on discrete visual tokens to decode high-fidelity images. Through large-scale pre-training, followed by supervised fine-tuning and reinforcement learning, UniAR achieves state-of-the-art performance on image generation and image editing while remaining competitive on multimodal understanding benchmarks. The project page is available at https://sharelab-sii.github.io/uniar-web.