AR-Omni: Un Modelo Autoregresivo Unificado para Generación de Cualquiera a Cualquiera
AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation
January 25, 2026
Autores: Dongjie Cheng, Ruifeng Yuan, Yongqi Li, Runyang You, Wenjie Wang, Liqiang Nie, Lei Zhang, Wenjie Li
cs.AI
Resumen
La percepción e interacción en el mundo real son inherentemente multimodales, abarcando no solo el lenguaje sino también la visión y el habla, lo que motiva el desarrollo de MLLMs "Omni" que admiten tanto entradas como salidas multimodales. Si bien ha surgido una secuencia de MLLMs omni, la mayoría de los sistemas existentes aún dependen de componentes expertos adicionales para lograr la generación multimodal, lo que limita la simplicidad del entrenamiento e inferencia unificados. El modelado autorregresivo (AR), con un único flujo de tokens, un único objetivo de siguiente token y un único decodificador, es una base elegante y escalable en el dominio textual. Motivados por esto, presentamos AR-Omni, un modelo unificado de cualquiera-a-cualquiera en el paradigma autorregresivo sin ningún decodificador experto. AR-Omni admite la generación autorregresiva de texto e imágenes, así como la generación de habla en streaming, todo bajo un único decodificador Transformer. Además, abordamos tres problemas prácticos en el modelado AR unificado: el desequilibrio de modalidades mediante la reponderación de pérdidas consciente de la tarea, la fidelidad visual mediante una pérdida de alineación perceptiva ligera a nivel de tokens para los tokens de imagen, y las compensaciones entre estabilidad y creatividad mediante un mecanismo de decodificación de estados finitos. Empíricamente, AR-Omni logra una alta calidad en las tres modalidades manteniéndose en tiempo real, alcanzando un factor de tiempo real de 0.88 para la generación de habla.
English
Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.