ChatPaper.aiChatPaper

StoryMem: Narración de Historias en Videos Largos con Múltiples Escenas mediante Memoria

StoryMem: Multi-shot Long Video Storytelling with Memory

December 22, 2025
Autores: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan
cs.AI

Resumen

La narrativa visual requiere generar vídeos de múltiples planos con calidad cinematográfica y coherencia a largo plazo. Inspirados en la memoria humana, proponemos StoryMem, un paradigma que reformula la narrativa de vídeo de larga duración como una síntesis iterativa de planos condicionada por una memoria visual explícita, transformando modelos de difusión de vídeo de un solo plano preentrenados en narradores de múltiples planos. Esto se logra mediante un novedoso diseño Memoria-a-Vídeo (M2V), que mantiene un banco de memoria compacto y actualizado dinámicamente con fotogramas clave de los planos generados históricamente. La memoria almacenada se inyecta luego en los modelos de difusión de vídeo de un solo plano mediante concatenación latente y desplazamientos negativos de RoPE, con solo un ajuste fino mediante LoRA. Una estrategia de selección de fotogramas clave semánticos, junto con un filtrado de preferencias estéticas, garantiza además una memoria informativa y estable durante toda la generación. Además, el marco propuesto se adapta naturalmente a transiciones suaves entre planos y a aplicaciones de generación de historias personalizadas. Para facilitar la evaluación, presentamos ST-Bench, un benchmark diverso para la narrativa visual de múltiples planos. Experimentos exhaustivos demuestran que StoryMem logra una coherencia superior entre planos en comparación con métodos anteriores, preservando al mismo tiempo una alta calidad estética y adherencia al prompt, lo que supone un avance significativo hacia la narrativa visual coherente de vídeos de minuto de duración.
English
Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.
PDF103December 24, 2025