X-Streamer : Modélisation unifiée du monde humain par interaction audiovisuelle
X-Streamer: Unified Human World Modeling with Audiovisual Interaction
September 25, 2025
papers.authors: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo
cs.AI
papers.abstract
Nous présentons X-Streamer, un cadre de modélisation du monde humain multimodal de bout en bout pour la création d'agents humains numériques capables d'interactions infinies à travers le texte, la parole et la vidéo au sein d'une architecture unifiée. À partir d'un simple portrait, X-Streamer permet des appels vidéo en temps réel et ouverts, pilotés par des entrées multimodales en flux continu. Au cœur de ce système se trouve une architecture dual-transformer Thinker-Actor qui unifie la compréhension et la génération multimodales, transformant un portrait statique en interactions audiovisuelles persistantes et intelligentes. Le module Thinker perçoit et raisonne sur les entrées utilisateur en flux continu, tandis que ses états cachés sont traduits par l'Actor en flux multimodaux synchronisés en temps réel. Concrètement, le Thinker s'appuie sur un modèle de langage-parole pré-entraîné de grande envergure, tandis que l'Actor utilise un modèle de diffusion autoregressif par segments qui se concentre de manière croisée sur les états cachés du Thinker pour produire des réponses multimodales alignées dans le temps, avec des jetons discrets de texte et audio entrelacés et des latents vidéo continus. Pour garantir une stabilité à long terme, nous concevons des attentions inter et intra-segments avec des embeddings positionnels multimodaux alignés dans le temps pour un alignement intermodal fin et une rétention de contexte, renforcés par un forçage de diffusion par segments et une référence d'identité globale. X-Streamer fonctionne en temps réel sur deux GPU A100, soutenant des expériences de chat vidéo cohérentes pendant des heures à partir de portraits arbitraires et ouvrant la voie vers une modélisation unifiée du monde des humains numériques interactifs.
English
We introduce X-Streamer, an end-to-end multimodal human world modeling
framework for building digital human agents capable of infinite interactions
across text, speech, and video within a single unified architecture. Starting
from a single portrait, X-Streamer enables real-time, open-ended video calls
driven by streaming multimodal inputs. At its core is a Thinker-Actor
dual-transformer architecture that unifies multimodal understanding and
generation, turning a static portrait into persistent and intelligent
audiovisual interactions. The Thinker module perceives and reasons over
streaming user inputs, while its hidden states are translated by the Actor into
synchronized multimodal streams in real time. Concretely, the Thinker leverages
a pretrained large language-speech model, while the Actor employs a chunk-wise
autoregressive diffusion model that cross-attends to the Thinker's hidden
states to produce time-aligned multimodal responses with interleaved discrete
text and audio tokens and continuous video latents. To ensure long-horizon
stability, we design inter- and intra-chunk attentions with time-aligned
multimodal positional embeddings for fine-grained cross-modality alignment and
context retention, further reinforced by chunk-wise diffusion forcing and
global identity referencing. X-Streamer runs in real time on two A100 GPUs,
sustaining hours-long consistent video chat experiences from arbitrary
portraits and paving the way toward unified world modeling of interactive
digital humans.