Wan-Streamer v0.1: Сквозные интерактивные фундаментальные модели реального времени

Аннотация

Мы представляем Wan-Streamer — нативно-потоковую, сквозную интерактивную фундаментальную модель, изначально разработанную для полноценного аудиовизуального взаимодействия в реальном времени с низкой задержкой. Wan-Streamer бесшовно моделирует язык, аудио и видео как на входе, так и на выходе в рамках единого Transformer, где последовательность представлена перемежающимися токенами визуального, аудио- и текстового ввода вместе с токенами визуального, аудио- и текстового вывода, координируемыми блочно-причинным вниманием для инкрементальной передачи. В отличие от каскадных интерактивных систем, основанных на отдельных модулях VAD, ASR, языка, TTS, управляемого аудио анимации или генерации видео, Wan-Streamer не полагается на внешние модули языка, речи, аватара или генерации видео: восприятие, рассуждение, генерация, синхронизация времени ответа, управление очередностью реплик и кросс-модальная синхронизация обучаются совместно в рамках единой модели, снижая конвейерную задержку и накопление ошибок. Для обеспечения естественной аудиовизуальной отзывчивости мы переработали весь стек с учётом потоковой передачи, включая каузальные кодеры, каузальные декодеры, блочно-причинное внимание и низколатентное планирование мультимодальных токенов, что позволяет использовать потоковые блоки длительностью всего 160 мс при частоте 25 кадров/с. Wan-Streamer достигает примерно 200 мс задержки на стороне модели и примерно 550 мс общей задержки взаимодействия при комбинации с 350 мс двунаправленной сетевой задержкой, поддерживая дуплексную аудиовизуальную связь с задержкой менее одной секунды. Эти результаты позиционируют Wan-Streamer как единую сквозную мультимодальную интерактивную фундаментальную модель для низколатентного потокового взаимодействия.

English

We present Wan-Streamer, a native-streaming, end-to-end interactive foundation model designed from the ground up for real-time, low-latency, full-duplex audio-visual interaction. Wan-Streamer seamlessly models language, audio, and video as both input and output within a single Transformer, where the sequence is represented as interleaved visual, audio, and text input tokens together with visual, audio, and text output tokens, coordinated by block-causal attention for incremental streaming. Unlike cascaded interactive systems that rely on separate VAD, ASR, language, TTS, audio-driven animation, or video-generation modules, Wan-Streamer does not rely on external language, speech, avatar, or video-generation modules: perception, reasoning, generation, response timing, turn management, and cross-modal synchronization are learned jointly within one unified model, reducing pipeline latency and error accumulation. To support natural audio-visual responsiveness, we redesign the entire stack around streamability, including causal encoders, causal decoders, block-causal attention, and low-latency multimodal token scheduling, enabling streaming units as short as 160 ms at 25 fps. Wan-Streamer achieves approximately 200 ms model-side response latency and approximately 550 ms total interaction latency when combined with 350 ms bidirectional network latency, supporting sub-second duplex audio-visual communication. These results position Wan-Streamer as a unified, end-to-end, multimodal interactive foundation model for low-latency streaming interaction.