X-Streamer: Единое моделирование человеческого мира с аудиовизуальным взаимодействием
X-Streamer: Unified Human World Modeling with Audiovisual Interaction
September 25, 2025
Авторы: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo
cs.AI
Аннотация
Мы представляем X-Streamer — сквозную мультимодальную платформу для моделирования человеческого мира, предназначенную для создания цифровых агентов, способных к бесконечным взаимодействиям через текст, речь и видео в рамках единой архитектуры. Начиная с одного портрета, X-Streamer обеспечивает возможность проведения открытых видеозвонков в реальном времени, управляемых потоковыми мультимодальными входами. В основе системы лежит архитектура Thinker-Actor с двумя трансформерами, которая объединяет мультимодальное понимание и генерацию, превращая статичный портрет в устойчивые и интеллектуальные аудиовизуальные взаимодействия. Модуль Thinker воспринимает и анализирует потоковые входные данные пользователя, а его скрытые состояния преобразуются модулем Actor в синхронизированные мультимодальные потоки в реальном времени. Конкретно, Thinker использует предобученную крупномасштабную языково-речевую модель, в то время как Actor применяет пошаговую авторегрессионную диффузионную модель, которая учитывает скрытые состояния Thinker для генерации временно согласованных мультимодальных ответов с чередующимися дискретными текстовыми и аудио токенами, а также непрерывными видео латентными представлениями. Для обеспечения долгосрочной стабильности мы разработали меж- и внутришаговые механизмы внимания с временно согласованными мультимодальными позиционными эмбеддингами для точного кросс-модального выравнивания и сохранения контекста, дополнительно усиленные шаговым диффузионным принуждением и глобальным ссыланием на идентичность. X-Streamer работает в реальном времени на двух GPU A100, поддерживая многочасовые согласованные видеозвонки с произвольных портретов и прокладывая путь к унифицированному моделированию мира интерактивных цифровых людей.
English
We introduce X-Streamer, an end-to-end multimodal human world modeling
framework for building digital human agents capable of infinite interactions
across text, speech, and video within a single unified architecture. Starting
from a single portrait, X-Streamer enables real-time, open-ended video calls
driven by streaming multimodal inputs. At its core is a Thinker-Actor
dual-transformer architecture that unifies multimodal understanding and
generation, turning a static portrait into persistent and intelligent
audiovisual interactions. The Thinker module perceives and reasons over
streaming user inputs, while its hidden states are translated by the Actor into
synchronized multimodal streams in real time. Concretely, the Thinker leverages
a pretrained large language-speech model, while the Actor employs a chunk-wise
autoregressive diffusion model that cross-attends to the Thinker's hidden
states to produce time-aligned multimodal responses with interleaved discrete
text and audio tokens and continuous video latents. To ensure long-horizon
stability, we design inter- and intra-chunk attentions with time-aligned
multimodal positional embeddings for fine-grained cross-modality alignment and
context retention, further reinforced by chunk-wise diffusion forcing and
global identity referencing. X-Streamer runs in real time on two A100 GPUs,
sustaining hours-long consistent video chat experiences from arbitrary
portraits and paving the way toward unified world modeling of interactive
digital humans.