ChatPaper.aiChatPaper

ShotStream: Потоковая генерация многосценарного видео для интерактивного сторителлинга

ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

March 26, 2026
Авторы: Yawen Luo, Xiaoyu Shi, Junhao Zhuang, Yutian Chen, Quande Liu, Xintao Wang, Pengfei Wan, Tianfan Xue
cs.AI

Аннотация

Многокадровая генерация видео играет ключевую роль в создании длинных повествовательных сюжетов, однако современные двунаправленные архитектуры страдают от ограниченной интерактивности и высокой задержки. Мы предлагаем ShotStream — новую каузальную многокадровую архитектуру, которая обеспечивает интерактивное повествование и эффективную генерацию кадров в реальном времени. Переформулировав задачу как генерацию следующего кадра с учетом исторического контекста, ShotStream позволяет пользователям динамически управлять развивающимся повествованием с помощью потоковых подсказок. Мы достигаем этого, сначала дообучивая модель «текст-в-видео» в двунаправленный генератор следующего кадра, который затем дистиллируется в каузальный студент с помощью дистилляции методом согласования распределений. Чтобы преодолеть проблемы согласованности между кадрами и накопления ошибок, присущие авторегрессионной генерации, мы вводим два ключевых новшества. Во-первых, механизм двойного кэширования памяти обеспечивает визуальную согласованность: глобальный кэш контекста сохраняет условные кадры для межкадровой согласованности, а локальный кэш контекста удерживает сгенерированные кадры внутри текущего кадра для внутрикадровой согласованности. Для явного различения двух кэшей и устранения неоднозначности используется индикатор разрыва RoPE. Во-вторых, для смягчения накопления ошибок мы предлагаем двухэтапную стратегию дистилляции. Она начинается с внутрикадрового самофорсинга с условием на основе эталонных исторических кадров и постепенно переходит к межкадровому самофорсингу с использованием самостоятельно сгенерированных историй, эффективно устраняя разрыв между обучением и тестированием. Многочисленные эксперименты демонстрируют, что ShotStream генерирует согласованные многокадровые видео с задержкой менее секунды, достигая 16 кадров в секунду на одном графическом процессоре. По качеству он не уступает или превосходит более медленные двунаправленные модели, открывая путь к интерактивному повествованию в реальном времени. Код для обучения и вывода, а также модели доступны в нашем
English
Multi-shot video generation is crucial for long narrative storytelling, yet current bidirectional architectures suffer from limited interactivity and high latency. We propose ShotStream, a novel causal multi-shot architecture that enables interactive storytelling and efficient on-the-fly frame generation. By reformulating the task as next-shot generation conditioned on historical context, ShotStream allows users to dynamically instruct ongoing narratives via streaming prompts. We achieve this by first fine-tuning a text-to-video model into a bidirectional next-shot generator, which is then distilled into a causal student via Distribution Matching Distillation. To overcome the challenges of inter-shot consistency and error accumulation inherent in autoregressive generation, we introduce two key innovations. First, a dual-cache memory mechanism preserves visual coherence: a global context cache retains conditional frames for inter-shot consistency, while a local context cache holds generated frames within the current shot for intra-shot consistency. And a RoPE discontinuity indicator is employed to explicitly distinguish the two caches to eliminate ambiguity. Second, to mitigate error accumulation, we propose a two-stage distillation strategy. This begins with intra-shot self-forcing conditioned on ground-truth historical shots and progressively extends to inter-shot self-forcing using self-generated histories, effectively bridging the train-test gap. Extensive experiments demonstrate that ShotStream generates coherent multi-shot videos with sub-second latency, achieving 16 FPS on a single GPU. It matches or exceeds the quality of slower bidirectional models, paving the way for real-time interactive storytelling. Training and inference code, as well as the models, are available on our
PDF1102March 31, 2026