ShotStream: Geração de Vídeo em Multi-Tomadas por Streaming para Narrativa Interativa

Resumo

A geração de vídeo multi-shot é crucial para narrativas longas, mas as arquiteturas bidirecionais atuais sofrem com interatividade limitada e alta latência. Propomos o ShotStream, uma nova arquitetura causal multi-shot que permite narrativa interativa e geração eficiente de frames em tempo real. Ao reformular a tarefa como geração do próximo shot condicionada ao contexto histórico, o ShotStream permite que os usuários instruam dinamicamente narrativas em andamento por meio de prompts em streaming. Conseguimos isso primeiro ajustando finamente um modelo texto-para-vídeo em um gerador bidirecional de próximo shot, que é então destilado em um aluno causal via Destilação por Correspondência de Distribuição. Para superar os desafios de consistência inter-shot e acumulação de erros inerentes à geração autoregressiva, introduzimos duas inovações principais. Primeiro, um mecanismo de memória de dupla cache preserva a coerência visual: uma cache de contexto global retém frames condicionais para consistência inter-shot, enquanto uma cache de contexto local armazena frames gerados dentro do shot atual para consistência intra-shot. E um indicador de descontinuidade RoPE é empregado para distinguir explicitamente as duas caches e eliminar ambiguidade. Segundo, para mitigar a acumulação de erros, propomos uma estratégia de destilação em dois estágios. Esta começa com auto-forçamento intra-shot condicionado aos shots históricos verdadeiros e progride gradualmente para auto-forçamento inter-shot usando históricos auto-gerados, efetivamente preenchendo a lacuna entre treino e teste. Experimentos extensivos demonstram que o ShotStream gera vídeos multi-shot coerentes com latência inferior a um segundo, atingindo 16 FPS em uma única GPU. Ele iguala ou excede a qualidade de modelos bidirecionais mais lentos, abrindo caminho para a narrativa interativa em tempo real. O código de treino e inferência, bem como os modelos, estão disponíveis em nosso

English

Multi-shot video generation is crucial for long narrative storytelling, yet current bidirectional architectures suffer from limited interactivity and high latency. We propose ShotStream, a novel causal multi-shot architecture that enables interactive storytelling and efficient on-the-fly frame generation. By reformulating the task as next-shot generation conditioned on historical context, ShotStream allows users to dynamically instruct ongoing narratives via streaming prompts. We achieve this by first fine-tuning a text-to-video model into a bidirectional next-shot generator, which is then distilled into a causal student via Distribution Matching Distillation. To overcome the challenges of inter-shot consistency and error accumulation inherent in autoregressive generation, we introduce two key innovations. First, a dual-cache memory mechanism preserves visual coherence: a global context cache retains conditional frames for inter-shot consistency, while a local context cache holds generated frames within the current shot for intra-shot consistency. And a RoPE discontinuity indicator is employed to explicitly distinguish the two caches to eliminate ambiguity. Second, to mitigate error accumulation, we propose a two-stage distillation strategy. This begins with intra-shot self-forcing conditioned on ground-truth historical shots and progressively extends to inter-shot self-forcing using self-generated histories, effectively bridging the train-test gap. Extensive experiments demonstrate that ShotStream generates coherent multi-shot videos with sub-second latency, achieving 16 FPS on a single GPU. It matches or exceeds the quality of slower bidirectional models, paving the way for real-time interactive storytelling. Training and inference code, as well as the models, are available on our