ShotStream: Generazione di Video Multi-Shot in Streaming per la Narrazione Interattiva
ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling
March 26, 2026
Autori: Yawen Luo, Xiaoyu Shi, Junhao Zhuang, Yutian Chen, Quande Liu, Xintao Wang, Pengfei Wan, Tianfan Xue
cs.AI
Abstract
La generazione di video multi-inquadratura è cruciale per la narrazione di lunghe storie, ma le attuali architetture bidirezionali soffrono di interattività limitata e alta latenza. Proponiamo ShotStream, una nuova architettura causale multi-inquadratura che abilita la narrazione interattiva e la generazione efficiente di fotogrammi al volo. Riformulando il compito come una generazione dell'inquadratura successiva condizionata dal contesto storico, ShotStream consente agli utenti di guidare dinamicamente narrazioni in corso tramite prompt in streaming. Raggiungiamo questo obiettivo prima addestrando per transfer learning un modello testo-video in un generatore bidirezionale di inquadrature successive, che viene poi distillato in uno studente causale tramite Distribution Matching Distillation. Per superare le sfide della coerenza inter-inquadratura e dell'accumulo di errori intrinseche alla generazione autoregressiva, introduciamo due innovazioni chiave. Primo, un meccanismo di memoria a doppia cache preserva la coerenza visiva: una cache di contesto globale conserva i fotogrammi condizionanti per la coerenza inter-inquadratura, mentre una cache di contesto locale trattiene i fotogrammi generati all'interno dell'inquadratura corrente per la coerenza intra-inquadratura. Viene impiegato un indicatore di discontinuità RoPE per distinguere esplicitamente le due cache ed eliminare l'ambiguità. Secondo, per mitigare l'accumulo di errori, proponiamo una strategia di distillazione in due fasi. Questa inizia con un auto-forzamento intra-inquadratura condizionato alle inquadrature storiche di ground-truth e si estende progressivamente a un auto-forzamento inter-inquadratura utilizzando storie auto-generate, colmando efficacemente il divario addestramento-test. Esperimenti estensivi dimostrano che ShotStream genera video multi-inquadratura coerenti con latenza inferiore al secondo, raggiungendo 16 FPS su una singola GPU. Eguaglia o supera la qualità di modelli bidirezionali più lenti, aprendo la strada alla narrazione interattiva in tempo reale. Il codice di addestramento e inferenza, così come i modelli, sono disponibili sul nostro
English
Multi-shot video generation is crucial for long narrative storytelling, yet current bidirectional architectures suffer from limited interactivity and high latency. We propose ShotStream, a novel causal multi-shot architecture that enables interactive storytelling and efficient on-the-fly frame generation. By reformulating the task as next-shot generation conditioned on historical context, ShotStream allows users to dynamically instruct ongoing narratives via streaming prompts. We achieve this by first fine-tuning a text-to-video model into a bidirectional next-shot generator, which is then distilled into a causal student via Distribution Matching Distillation. To overcome the challenges of inter-shot consistency and error accumulation inherent in autoregressive generation, we introduce two key innovations. First, a dual-cache memory mechanism preserves visual coherence: a global context cache retains conditional frames for inter-shot consistency, while a local context cache holds generated frames within the current shot for intra-shot consistency. And a RoPE discontinuity indicator is employed to explicitly distinguish the two caches to eliminate ambiguity. Second, to mitigate error accumulation, we propose a two-stage distillation strategy. This begins with intra-shot self-forcing conditioned on ground-truth historical shots and progressively extends to inter-shot self-forcing using self-generated histories, effectively bridging the train-test gap. Extensive experiments demonstrate that ShotStream generates coherent multi-shot videos with sub-second latency, achieving 16 FPS on a single GPU. It matches or exceeds the quality of slower bidirectional models, paving the way for real-time interactive storytelling. Training and inference code, as well as the models, are available on our