StoryMem: Raccontare Storie con Video Lunghi Multi-shot attraverso la Memoria
StoryMem: Multi-shot Long Video Storytelling with Memory
December 22, 2025
Autori: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan
cs.AI
Abstract
La narrazione visiva richiede la generazione di video multi-inquadratura con qualità cinematografica e coerenza a lungo raggio. Ispirati dalla memoria umana, proponiamo StoryMem, un paradigma che riformula la narrazione video di lunga durata come una sintesi iterativa di inquadrature condizionata da una memoria visiva esplicita, trasformando modelli di diffusione video pre-addestrati per singole inquadrature in narratori multi-inquadratura. Questo è ottenuto tramite un'innovativa progettazione Memory-to-Video (M2V), che mantiene un banco di memoria compatto e aggiornato dinamicamente contenente fotogrammi chiave dalle inquadrature generate storicamente. La memoria archiviata viene poi iniettata nei modelli di diffusione video per singola inquadratura mediante concatenazione latente e spostamenti RoPE negativi, con un fine-tuning limitato a LoRA. Una strategia di selezione semantica dei fotogrammi chiave, unita a un filtraggio basato su preferenze estetiche, garantisce ulteriormente una memoria informativa e stabile durante l'intera generazione. Inoltre, il framework proposto si presta naturalmente a transizioni fluide tra inquadrature e ad applicazioni di generazione di storie personalizzate. Per facilitare la valutazione, introduciamo ST-Bench, un benchmark diversificato per la narrazione video multi-inquadratura. Esperimenti estensivi dimostrano che StoryMem raggiunge una coerenza superiore tra le inquadrature rispetto ai metodi precedenti, preservando al contempo un'alta qualità estetica e l'aderenza al prompt, rappresentando un passo significativo verso la narrazione video coerente della durata di minuti.
English
Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.