X-Streamer: Geïntegreerd Menselijk Wereldmodel met Audiovisuele Interactie
X-Streamer: Unified Human World Modeling with Audiovisual Interaction
September 25, 2025
Auteurs: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo
cs.AI
Samenvatting
We introduceren X-Streamer, een end-to-end multimodaal raamwerk voor het modelleren van de menselijke wereld, ontworpen om digitale menselijke agents te bouwen die in staat zijn tot oneindige interacties via tekst, spraak en video binnen een enkele geïntegreerde architectuur. Uitgaande van een enkel portret maakt X-Streamer realtime, open-ended videogesprekken mogelijk, aangedreven door streaming multimodale invoer. De kern bestaat uit een Thinker-Actor dual-transformer architectuur die multimodale begrip en generatie verenigt, waardoor een statisch portret wordt omgezet in aanhoudende en intelligente audiovisuele interacties. De Thinker module neemt streaming gebruikersinvoer waar en redeneert hierover, terwijl de verborgen toestanden door de Actor in realtime worden vertaald naar gesynchroniseerde multimodale streams. Concreet maakt de Thinker gebruik van een vooraf getraind groot taal-spraakmodel, terwijl de Actor een chunk-wise autoregressief diffusiemodel gebruikt dat cross-attention toepast op de verborgen toestanden van de Thinker om tijdelijk uitgelijnde multimodale reacties te produceren met afwisselende discrete tekst- en audiotokens en continue videolatenten. Om stabiliteit op lange termijn te garanderen, ontwerpen we inter- en intra-chunk attentions met tijdelijk uitgelijnde multimodale positionele embeddings voor fijnmazige cross-modale uitlijning en contextbehoud, verder versterkt door chunk-wise diffusie-forcing en globale identiteitsreferenties. X-Streamer draait in realtime op twee A100 GPU's, waardoor urenlange consistente videochat-ervaringen mogelijk zijn vanuit willekeurige portretten en de weg wordt geëffend naar een verenigd wereldmodel van interactieve digitale mensen.
English
We introduce X-Streamer, an end-to-end multimodal human world modeling
framework for building digital human agents capable of infinite interactions
across text, speech, and video within a single unified architecture. Starting
from a single portrait, X-Streamer enables real-time, open-ended video calls
driven by streaming multimodal inputs. At its core is a Thinker-Actor
dual-transformer architecture that unifies multimodal understanding and
generation, turning a static portrait into persistent and intelligent
audiovisual interactions. The Thinker module perceives and reasons over
streaming user inputs, while its hidden states are translated by the Actor into
synchronized multimodal streams in real time. Concretely, the Thinker leverages
a pretrained large language-speech model, while the Actor employs a chunk-wise
autoregressive diffusion model that cross-attends to the Thinker's hidden
states to produce time-aligned multimodal responses with interleaved discrete
text and audio tokens and continuous video latents. To ensure long-horizon
stability, we design inter- and intra-chunk attentions with time-aligned
multimodal positional embeddings for fine-grained cross-modality alignment and
context retention, further reinforced by chunk-wise diffusion forcing and
global identity referencing. X-Streamer runs in real time on two A100 GPUs,
sustaining hours-long consistent video chat experiences from arbitrary
portraits and paving the way toward unified world modeling of interactive
digital humans.