Унифицированное мультимодальное авторегрессионное моделирование с общим контекстно-визуальным токенизатором является ключом к унификации.

Аннотация

Единое мультимодальное моделирование направлено на интеграцию зрительного восприятия и генерации в единой системе. Однако существующие подходы, как правило, полагаются на два различных визуальных токенизатора, что разделяет пространство представлений и препятствует истинно унифицированному моделированию. Мы предлагаем UniAR — единую авторегрессионную архитектуру, в которой единственный дискретный визуальный токенизатор служит ключевым связующим звеном между пониманием и генерацией, обеспечивая общий контекст, позволяющий модели напрямую интерпретировать собственные сгенерированные визуальные токены без дополнительного повторного кодирования. UniAR адаптирует предварительно обученный кодер зрения с многоуровневым слиянием признаков и безпоисковым побитовым квантованием, сохраняя как семантику высокого уровня, так и детали низкого уровня, при этом масштабируя эффективный визуальный словарь с минимальными затратами. На этой основе единая авторегрессионная модель использует параллельное побитовое прогнозирование для совместного предсказания пространственно сгруппированных многоуровневых визуальных кодов, что существенно сокращает длину визуальной последовательности и ускоряет генерацию. Наконец, диффузионный визуальный декодер работает с дискретными визуальными токенами для декодирования изображений высокого качества. Благодаря крупномасштабному предварительному обучению с последующим контролируемым дообучением и обучением с подкреплением, UniAR достигает передовых результатов в генерации и редактировании изображений, оставаясь конкурентоспособным в задачах мультимодального понимания. Страница проекта доступна по адресу https://sharelab-sii.github.io/uniar-web.

English

Unified Multimodal Modeling aims to integrate visual understanding and generation within a single system. However, existing approaches typically rely on two disparate visual tokenizers, which splits the representation space and hinders truly unified modeling. We propose UniAR, a unified autoregressive framework where a single discrete visual tokenizer serves as the key bridge between understanding and generation, enabling a shared context in which the model can directly interpret its own generated visual tokens without additional re-encoding. UniAR adapts a pretrained vision encoder with multi-level feature fusion and a lookup-free bitwise quantization scheme, preserving both high-level semantics and low-level details while scaling the effective visual vocabulary at minimal cost. Building on this, the unified autoregressive model adopts parallel-bitwise-prediction to jointly predict spatially grouped, multi-level visual codes, substantially reducing visual sequence length and accelerating generation. Finally, a diffusion-based visual decoder operates on discrete visual tokens to decode high-fidelity images. Through large-scale pre-training, followed by supervised fine-tuning and reinforcement learning, UniAR achieves state-of-the-art performance on image generation and image editing while remaining competitive on multimodal understanding benchmarks. The project page is available at https://sharelab-sii.github.io/uniar-web.