X-Streamer: Modellazione Unificata del Mondo Umano con Interazione Audiovisiva
X-Streamer: Unified Human World Modeling with Audiovisual Interaction
September 25, 2025
Autori: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo
cs.AI
Abstract
Presentiamo X-Streamer, un framework end-to-end di modellazione multimodale del mondo umano per la creazione di agenti digitali umani capaci di interazioni infinite attraverso testo, voce e video all'interno di un'unica architettura unificata. Partendo da un singolo ritratto, X-Streamer abilita chiamate video in tempo reale e aperte, guidate da input multimodali in streaming. Al suo cuore si trova un'architettura dual-transformer Thinker-Actor che unifica comprensione e generazione multimodale, trasformando un ritratto statico in interazioni audiovisive persistenti e intelligenti. Il modulo Thinker percepisce e ragiona sugli input utente in streaming, mentre i suoi stati nascosti vengono tradotti dall'Actor in flussi multimodali sincronizzati in tempo reale. Nello specifico, il Thinker sfrutta un modello preaddestrato di linguaggio e voce su larga scala, mentre l'Actor utilizza un modello di diffusione autoregressivo a blocchi che applica cross-attention agli stati nascosti del Thinker per produrre risposte multimodali allineate temporalmente, con token discreti di testo e audio intervallati e latenti video continui. Per garantire stabilità a lungo termine, progettiamo attenzioni inter- e intra-blocco con incorporamenti posizionali multimodali allineati temporalmente per un allineamento cross-modale fine e la conservazione del contesto, ulteriormente rafforzati da forzature di diffusione a blocchi e riferimenti globali all'identità. X-Streamer funziona in tempo reale su due GPU A100, sostenendo esperienze di chat video coerenti per ore a partire da ritratti arbitrari e aprendo la strada verso una modellazione unificata del mondo di esseri umani digitali interattivi.
English
We introduce X-Streamer, an end-to-end multimodal human world modeling
framework for building digital human agents capable of infinite interactions
across text, speech, and video within a single unified architecture. Starting
from a single portrait, X-Streamer enables real-time, open-ended video calls
driven by streaming multimodal inputs. At its core is a Thinker-Actor
dual-transformer architecture that unifies multimodal understanding and
generation, turning a static portrait into persistent and intelligent
audiovisual interactions. The Thinker module perceives and reasons over
streaming user inputs, while its hidden states are translated by the Actor into
synchronized multimodal streams in real time. Concretely, the Thinker leverages
a pretrained large language-speech model, while the Actor employs a chunk-wise
autoregressive diffusion model that cross-attends to the Thinker's hidden
states to produce time-aligned multimodal responses with interleaved discrete
text and audio tokens and continuous video latents. To ensure long-horizon
stability, we design inter- and intra-chunk attentions with time-aligned
multimodal positional embeddings for fine-grained cross-modality alignment and
context retention, further reinforced by chunk-wise diffusion forcing and
global identity referencing. X-Streamer runs in real time on two A100 GPUs,
sustaining hours-long consistent video chat experiences from arbitrary
portraits and paving the way toward unified world modeling of interactive
digital humans.