X-Streamer: Modelagem Unificada do Mundo Humano com Interação Audiovisual
X-Streamer: Unified Human World Modeling with Audiovisual Interaction
September 25, 2025
Autores: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo
cs.AI
Resumo
Apresentamos o X-Streamer, uma estrutura de modelagem multimodal do mundo humano de ponta a ponta para a construção de agentes humanos digitais capazes de interações infinitas em texto, fala e vídeo dentro de uma única arquitetura unificada. A partir de um único retrato, o X-Streamer permite chamadas de vídeo em tempo real e de duração aberta, impulsionadas por entradas multimodais em fluxo contínuo. Em seu núcleo está uma arquitetura dual-transformer Thinker-Actor que unifica a compreensão e geração multimodal, transformando um retrato estático em interações audiovisuais persistentes e inteligentes. O módulo Thinker percebe e raciocina sobre as entradas do usuário em fluxo, enquanto seus estados ocultos são traduzidos pelo Actor em fluxos multimodais sincronizados em tempo real. Concretamente, o Thinker aproveita um modelo grande pré-treinado de linguagem e fala, enquanto o Actor emprega um modelo de difusão autoregressivo por blocos que atende de forma cruzada aos estados ocultos do Thinker para produzir respostas multimodais alinhadas no tempo, com tokens discretos intercalados de texto e áudio e latentes contínuos de vídeo. Para garantir estabilidade em horizontes longos, projetamos atenções inter e intra-bloco com embeddings posicionais multimodais alinhados no tempo para alinhamento fino entre modalidades e retenção de contexto, reforçados ainda por forçamento de difusão por blocos e referência global de identidade. O X-Streamer opera em tempo real em duas GPUs A100, sustentando experiências de chat de vídeo consistentes por horas a partir de retratos arbitrários e abrindo caminho para a modelagem unificada do mundo de humanos digitais interativos.
English
We introduce X-Streamer, an end-to-end multimodal human world modeling
framework for building digital human agents capable of infinite interactions
across text, speech, and video within a single unified architecture. Starting
from a single portrait, X-Streamer enables real-time, open-ended video calls
driven by streaming multimodal inputs. At its core is a Thinker-Actor
dual-transformer architecture that unifies multimodal understanding and
generation, turning a static portrait into persistent and intelligent
audiovisual interactions. The Thinker module perceives and reasons over
streaming user inputs, while its hidden states are translated by the Actor into
synchronized multimodal streams in real time. Concretely, the Thinker leverages
a pretrained large language-speech model, while the Actor employs a chunk-wise
autoregressive diffusion model that cross-attends to the Thinker's hidden
states to produce time-aligned multimodal responses with interleaved discrete
text and audio tokens and continuous video latents. To ensure long-horizon
stability, we design inter- and intra-chunk attentions with time-aligned
multimodal positional embeddings for fine-grained cross-modality alignment and
context retention, further reinforced by chunk-wise diffusion forcing and
global identity referencing. X-Streamer runs in real time on two A100 GPUs,
sustaining hours-long consistent video chat experiences from arbitrary
portraits and paving the way toward unified world modeling of interactive
digital humans.