AR-Omni: Um Modelo Autoregressivo Unificado para Geração Any-to-Any

Resumo

A percepção e interação no mundo real são inerentemente multimodais, abrangendo não apenas a linguagem, mas também a visão e a fala, o que motiva o desenvolvimento de MLLMs "Omni" que suportam entradas e saídas multimodais. Embora uma sequência de MLLMs omni tenha surgido, a maioria dos sistemas existentes ainda depende de componentes especializados adicionais para alcançar a geração multimodal, limitando a simplicidade do treinamento e inferência unificados. A modelagem autoregressiva (AR), com um único fluxo de tokens, um único objetivo de próximo token e um único decodificador, é uma base elegante e escalável no domínio textual. Motivados por isso, apresentamos o AR-Omni, um modelo unificado de qualquer-para-qualquer no paradigma autoregressivo, sem qualquer decodificador especializado. O AR-Omni suporta geração autoregressiva de texto e imagem, bem como geração de fala em fluxo contínuo, tudo sob um único decodificador Transformer. Abordamos ainda três questões práticas na modelagem AR unificada: desequilíbrio de modalidade via reponderação de perda consciente da tarefa, fidelidade visual via uma perda de alinhamento perceptual leve em nível de token para tokens de imagem, e compensações entre estabilidade e criatividade via um mecanismo de decodificação de estado finito. Empiricamente, o AR-Omni alcança alta qualidade nas três modalidades, mantendo-se em tempo real, atingindo um fator de tempo real de 0,88 para geração de fala.

English

Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.

AR-Omni: Um Modelo Autoregressivo Unificado para Geração Any-to-Any

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

Resumo

Support