X-Streamer: Vereinheitlichte Modellierung der menschlichen Welt durch audiovisuelle Interaktion
X-Streamer: Unified Human World Modeling with Audiovisual Interaction
September 25, 2025
papers.authors: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo
cs.AI
papers.abstract
Wir stellen X-Streamer vor, ein end-to-end multimodales Framework zur Modellierung der menschlichen Welt, das die Erstellung digitaler menschlicher Agenten ermöglicht, die in der Lage sind, unendliche Interaktionen über Text, Sprache und Video innerhalb einer einzigen einheitlichen Architektur durchzuführen. Ausgehend von einem einzelnen Porträt ermöglicht X-Streamer Echtzeit-Videoanrufe mit offenem Ende, die durch Streaming multimodaler Eingaben gesteuert werden. Im Kern befindet sich eine Thinker-Actor-Dual-Transformer-Architektur, die multimodales Verständnis und Generierung vereint und ein statisches Porträt in persistente und intelligente audiovisuelle Interaktionen verwandelt. Das Thinker-Modul nimmt Streaming-Benutzereingaben wahr und verarbeitet sie, während seine verborgenen Zustände vom Actor-Modul in Echtzeit in synchronisierte multimodale Streams übersetzt werden. Konkret nutzt der Thinker ein vortrainiertes großes Sprach-Sprach-Modell, während der Actor ein chunkweise autoregressives Diffusionsmodell verwendet, das die verborgenen Zustände des Thinkers durch Cross-Attention berücksichtigt, um zeitlich abgestimmte multimodale Antworten mit verschachtelten diskreten Text- und Audio-Tokens sowie kontinuierlichen Video-Latents zu erzeugen. Um die Stabilität über lange Zeiträume zu gewährleisten, entwerfen wir inter- und intra-chunk Aufmerksamkeitsmechanismen mit zeitlich abgestimmten multimodalen Positions-Einbettungen für eine fein abgestimmte cross-modale Ausrichtung und Kontextbewahrung, die durch chunkweise Diffusionserzwingung und globale Identitätsreferenzierung weiter verstärkt wird. X-Streamer läuft in Echtzeit auf zwei A100-GPUs und ermöglicht stundenlange konsistente Video-Chat-Erlebnisse aus beliebigen Porträts, wodurch der Weg zur einheitlichen Weltmodellierung interaktiver digitaler Menschen geebnet wird.
English
We introduce X-Streamer, an end-to-end multimodal human world modeling
framework for building digital human agents capable of infinite interactions
across text, speech, and video within a single unified architecture. Starting
from a single portrait, X-Streamer enables real-time, open-ended video calls
driven by streaming multimodal inputs. At its core is a Thinker-Actor
dual-transformer architecture that unifies multimodal understanding and
generation, turning a static portrait into persistent and intelligent
audiovisual interactions. The Thinker module perceives and reasons over
streaming user inputs, while its hidden states are translated by the Actor into
synchronized multimodal streams in real time. Concretely, the Thinker leverages
a pretrained large language-speech model, while the Actor employs a chunk-wise
autoregressive diffusion model that cross-attends to the Thinker's hidden
states to produce time-aligned multimodal responses with interleaved discrete
text and audio tokens and continuous video latents. To ensure long-horizon
stability, we design inter- and intra-chunk attentions with time-aligned
multimodal positional embeddings for fine-grained cross-modality alignment and
context retention, further reinforced by chunk-wise diffusion forcing and
global identity referencing. X-Streamer runs in real time on two A100 GPUs,
sustaining hours-long consistent video chat experiences from arbitrary
portraits and paving the way toward unified world modeling of interactive
digital humans.