X-Streamer : Modélisation unifiée du monde humain par interaction audiovisuelle

papers.abstract

Nous présentons X-Streamer, un cadre de modélisation du monde humain multimodal de bout en bout pour la création d'agents humains numériques capables d'interactions infinies à travers le texte, la parole et la vidéo au sein d'une architecture unifiée. À partir d'un simple portrait, X-Streamer permet des appels vidéo en temps réel et ouverts, pilotés par des entrées multimodales en flux continu. Au cœur de ce système se trouve une architecture dual-transformer Thinker-Actor qui unifie la compréhension et la génération multimodales, transformant un portrait statique en interactions audiovisuelles persistantes et intelligentes. Le module Thinker perçoit et raisonne sur les entrées utilisateur en flux continu, tandis que ses états cachés sont traduits par l'Actor en flux multimodaux synchronisés en temps réel. Concrètement, le Thinker s'appuie sur un modèle de langage-parole pré-entraîné de grande envergure, tandis que l'Actor utilise un modèle de diffusion autoregressif par segments qui se concentre de manière croisée sur les états cachés du Thinker pour produire des réponses multimodales alignées dans le temps, avec des jetons discrets de texte et audio entrelacés et des latents vidéo continus. Pour garantir une stabilité à long terme, nous concevons des attentions inter et intra-segments avec des embeddings positionnels multimodaux alignés dans le temps pour un alignement intermodal fin et une rétention de contexte, renforcés par un forçage de diffusion par segments et une référence d'identité globale. X-Streamer fonctionne en temps réel sur deux GPU A100, soutenant des expériences de chat vidéo cohérentes pendant des heures à partir de portraits arbitraires et ouvrant la voie vers une modélisation unifiée du monde des humains numériques interactifs.

English

We introduce X-Streamer, an end-to-end multimodal human world modeling framework for building digital human agents capable of infinite interactions across text, speech, and video within a single unified architecture. Starting from a single portrait, X-Streamer enables real-time, open-ended video calls driven by streaming multimodal inputs. At its core is a Thinker-Actor dual-transformer architecture that unifies multimodal understanding and generation, turning a static portrait into persistent and intelligent audiovisual interactions. The Thinker module perceives and reasons over streaming user inputs, while its hidden states are translated by the Actor into synchronized multimodal streams in real time. Concretely, the Thinker leverages a pretrained large language-speech model, while the Actor employs a chunk-wise autoregressive diffusion model that cross-attends to the Thinker's hidden states to produce time-aligned multimodal responses with interleaved discrete text and audio tokens and continuous video latents. To ensure long-horizon stability, we design inter- and intra-chunk attentions with time-aligned multimodal positional embeddings for fine-grained cross-modality alignment and context retention, further reinforced by chunk-wise diffusion forcing and global identity referencing. X-Streamer runs in real time on two A100 GPUs, sustaining hours-long consistent video chat experiences from arbitrary portraits and paving the way toward unified world modeling of interactive digital humans.

X-Streamer : Modélisation unifiée du monde humain par interaction audiovisuelle

X-Streamer: Unified Human World Modeling with Audiovisual Interaction

papers.abstract

Support