X-Streamer: Modelado Unificado del Mundo Humano con Interacción Audiovisual
X-Streamer: Unified Human World Modeling with Audiovisual Interaction
September 25, 2025
Autores: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo
cs.AI
Resumen
Presentamos X-Streamer, un marco de modelado multimodal del mundo humano de extremo a extremo para construir agentes humanos digitales capaces de interacciones infinitas a través de texto, voz y video dentro de una única arquitectura unificada. A partir de un solo retrato, X-Streamer permite videollamadas en tiempo real y de duración abierta impulsadas por entradas multimodales en flujo continuo. En su núcleo se encuentra una arquitectura dual-transformadora Thinker-Actor que unifica la comprensión y generación multimodal, transformando un retrato estático en interacciones audiovisuales persistentes e inteligentes. El módulo Thinker percibe y razona sobre las entradas del usuario en flujo continuo, mientras que sus estados ocultos son traducidos por el Actor en flujos multimodales sincronizados en tiempo real. Concretamente, el Thinker aprovecha un modelo preentrenado de lenguaje y voz a gran escala, mientras que el Actor emplea un modelo de difusión autoregresivo por fragmentos que atiende cruzadamente a los estados ocultos del Thinker para producir respuestas multimodales alineadas en el tiempo, con tokens discretos de texto y audio intercalados y latentes de video continuos. Para garantizar la estabilidad a largo plazo, diseñamos atenciones inter e intra-fragmentos con incrustaciones posicionales multimodales alineadas en el tiempo para una alineación cruzada de modalidades de grano fino y retención de contexto, reforzadas adicionalmente por forzado de difusión por fragmentos y referenciación global de identidad. X-Streamer funciona en tiempo real en dos GPUs A100, sosteniendo experiencias de videollamada consistentes durante horas a partir de retratos arbitrarios y allanando el camino hacia el modelado unificado del mundo de humanos digitales interactivos.
English
We introduce X-Streamer, an end-to-end multimodal human world modeling
framework for building digital human agents capable of infinite interactions
across text, speech, and video within a single unified architecture. Starting
from a single portrait, X-Streamer enables real-time, open-ended video calls
driven by streaming multimodal inputs. At its core is a Thinker-Actor
dual-transformer architecture that unifies multimodal understanding and
generation, turning a static portrait into persistent and intelligent
audiovisual interactions. The Thinker module perceives and reasons over
streaming user inputs, while its hidden states are translated by the Actor into
synchronized multimodal streams in real time. Concretely, the Thinker leverages
a pretrained large language-speech model, while the Actor employs a chunk-wise
autoregressive diffusion model that cross-attends to the Thinker's hidden
states to produce time-aligned multimodal responses with interleaved discrete
text and audio tokens and continuous video latents. To ensure long-horizon
stability, we design inter- and intra-chunk attentions with time-aligned
multimodal positional embeddings for fine-grained cross-modality alignment and
context retention, further reinforced by chunk-wise diffusion forcing and
global identity referencing. X-Streamer runs in real time on two A100 GPUs,
sustaining hours-long consistent video chat experiences from arbitrary
portraits and paving the way toward unified world modeling of interactive
digital humans.