ChatPaper.aiChatPaper

Wan-Streamer v0.1: Сквозные интерактивные фундаментальные модели реального времени

Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

June 23, 2026
Авторы: Lianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi
cs.AI

Аннотация

Мы представляем Wan-Streamer — нативно-потоковую, сквозную интерактивную фундаментальную модель, изначально разработанную для полноценного аудиовизуального взаимодействия в реальном времени с низкой задержкой. Wan-Streamer бесшовно моделирует язык, аудио и видео как на входе, так и на выходе в рамках единого Transformer, где последовательность представлена перемежающимися токенами визуального, аудио- и текстового ввода вместе с токенами визуального, аудио- и текстового вывода, координируемыми блочно-причинным вниманием для инкрементальной передачи. В отличие от каскадных интерактивных систем, основанных на отдельных модулях VAD, ASR, языка, TTS, управляемого аудио анимации или генерации видео, Wan-Streamer не полагается на внешние модули языка, речи, аватара или генерации видео: восприятие, рассуждение, генерация, синхронизация времени ответа, управление очередностью реплик и кросс-модальная синхронизация обучаются совместно в рамках единой модели, снижая конвейерную задержку и накопление ошибок. Для обеспечения естественной аудиовизуальной отзывчивости мы переработали весь стек с учётом потоковой передачи, включая каузальные кодеры, каузальные декодеры, блочно-причинное внимание и низколатентное планирование мультимодальных токенов, что позволяет использовать потоковые блоки длительностью всего 160 мс при частоте 25 кадров/с. Wan-Streamer достигает примерно 200 мс задержки на стороне модели и примерно 550 мс общей задержки взаимодействия при комбинации с 350 мс двунаправленной сетевой задержкой, поддерживая дуплексную аудиовизуальную связь с задержкой менее одной секунды. Эти результаты позиционируют Wan-Streamer как единую сквозную мультимодальную интерактивную фундаментальную модель для низколатентного потокового взаимодействия.
English
We present Wan-Streamer, a native-streaming, end-to-end interactive foundation model designed from the ground up for real-time, low-latency, full-duplex audio-visual interaction. Wan-Streamer seamlessly models language, audio, and video as both input and output within a single Transformer, where the sequence is represented as interleaved visual, audio, and text input tokens together with visual, audio, and text output tokens, coordinated by block-causal attention for incremental streaming. Unlike cascaded interactive systems that rely on separate VAD, ASR, language, TTS, audio-driven animation, or video-generation modules, Wan-Streamer does not rely on external language, speech, avatar, or video-generation modules: perception, reasoning, generation, response timing, turn management, and cross-modal synchronization are learned jointly within one unified model, reducing pipeline latency and error accumulation. To support natural audio-visual responsiveness, we redesign the entire stack around streamability, including causal encoders, causal decoders, block-causal attention, and low-latency multimodal token scheduling, enabling streaming units as short as 160 ms at 25 fps. Wan-Streamer achieves approximately 200 ms model-side response latency and approximately 550 ms total interaction latency when combined with 350 ms bidirectional network latency, supporting sub-second duplex audio-visual communication. These results position Wan-Streamer as a unified, end-to-end, multimodal interactive foundation model for low-latency streaming interaction.