StoryMem: Narrativa de Vídeos Longos com Múltiplas Sequências Utilizando Memória

Resumo

A narrativa visual requer a geração de vídeos com múltiplos planos de qualidade cinematográfica e consistência de longo alcance. Inspirados pela memória humana, propomos o StoryMem, um paradigma que reformula a narrativa de vídeo de longa duração como uma síntese iterativa de planos condicionada a uma memória visual explícita, transformando modelos de difusão de vídeo pré-treinados para planos únicos em narradores de múltiplos planos. Isto é alcançado por um novo design Memória-para-Vídeo (M2V), que mantém um banco de memória compacto e dinamicamente atualizado com *keyframes* dos planos históricos gerados. A memória armazenada é então injetada nos modelos de difusão de vídeo para planos únicos através de concatenação latente e deslocamentos negativos de RoPE, utilizando apenas ajuste fino com LoRA. Uma estratégia de seleção semântica de *keyframes*, juntamente com uma filtragem por preferência estética, garante ainda uma memória informativa e estável ao longo da geração. Além disso, a estrutura proposta acomoda naturalmente transições suaves entre planos e aplicações de geração de histórias personalizadas. Para facilitar a avaliação, introduzimos o ST-Bench, um *benchmark* diversificado para narrativa visual com múltiplos planos. Experimentos extensivos demonstram que o StoryMem alcança uma consistência superior entre planos em comparação com métodos anteriores, preservando alta qualidade estética e aderência ao *prompt*, representando um passo significativo em direção à narrativa visual coerente com minutos de duração.

English

Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.

StoryMem: Narrativa de Vídeos Longos com Múltiplas Sequências Utilizando Memória

StoryMem: Multi-shot Long Video Storytelling with Memory

Resumo

Support