ChatPaper.aiChatPaper

AR-Omni: Унифицированная авторегрессионная модель для генерации по принципу «любой-к-любому»

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

January 25, 2026
Авторы: Dongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li
cs.AI

Аннотация

Восприятие и взаимодействие в реальном мире по своей природе мультимодальны и включают не только язык, но также зрение и речь, что стимулирует разработку «универсальных» (Omni) MLLM, поддерживающих как мультимодальные входы, так и мультимодальные выходы. Хотя появился ряд универсальных MLLM, большинство существующих систем по-прежнему полагаются на дополнительные экспертные компоненты для достижения мультимодального генерации, что ограничивает простоту унифицированного обучения и вывода. Авторегрессионное (AR) моделирование с единым потоком токенов, единой целью предсказания следующего токена и единым декодером является элегантной и масштабируемой основой в текстовой области. Руководствуясь этим, мы представляем AR-Omni — унифицированную модель типа «любой-к-любому» в авторегрессионной парадигме, не использующую каких-либо экспертных декодеров. AR-Omni поддерживает авторегрессионную генерацию текста и изображений, а также потоковую генерацию речи, используя единственный Transformer-декодер. Мы также решаем три практические проблемы унифицированного AR-моделирования: дисбаланс модальностей с помощью перевзвешивания потерь с учетом задачи, визуальную точность с помощью легковесной функции перцептивного выравнивания на уровне токенов для токенов изображения и компромисс между стабильностью и креативностью с помощью механизма декодирования с конечным состоянием. Экспериментально показано, что AR-Omni достигает высокого качества работы во всех трех модальностях, оставаясь при этом системой реального времени, с коэффициентом реального времени 0.88 для генерации речи.
English
Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.
PDF71January 28, 2026