ChatPaper.aiChatPaper

AR-Omni: 임의-대-임의 생성을 위한 통합 자기회귀 모델

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

January 25, 2026
저자: Dongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li
cs.AI

초록

실세계의 인식과 상호작용은 본질적으로 다중 모달적이며, 언어뿐만 아니라 시각과 음성도 포함합니다. 이는 다중 모달 입력과 다중 모달 출력을 모두 지원하는 "Omni" MLLM의 개발 동기가 됩니다. 일련의 Omni MLLM이 등장했지만, 대부분의 기존 시스템은 여전히 다중 모달 생성을 위해 추가적인 전문가 구성 요소에 의존하여 통합 학습 및 추론의 단순성을 제한하고 있습니다. 단일 토큰 스트림, 단일 다음 토큰 목표, 단일 디코더를 갖춘 자기회귀(AR) 모델링은 텍스트 영역에서 우아하고 확장 가능한 기초입니다. 이에 동기를 부여받아, 우리는 전문가 디코더 없이 자기회귀 패러다임 내에서 통합된 임의-대-임의(any-to-any) 모델인 AR-Omni를 제시합니다. AR-Omni는 단일 Transformer 디코더 아래에서 자기회귀적 텍스트 및 이미지 생성과 스트리밍 음성 생성을 모두 지원합니다. 우리는 더 나아가 통합 AR 모델링의 세 가지 실용적 문제를 해결합니다: 작업 인식 손실 재가중을 통한 모달 불균형, 이미지 토큰을 위한 경량 토큰 수준 지각 정렬 손실을 통한 시각적 충실도, 유한 상태 디코딩 메커니즘을 통한 안정성-창의성 트레이드오프입니다. 실증적으로 AR-Omni는 음성 생성에서 0.88의 실시간 계수를 달성하며 실시간 성능을 유지하면서 세 가지 모달리티에 걸쳐 강력한 품질을 달성합니다.
English
Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.
PDF71January 28, 2026