StoryMem: Multi-shot Langdurige Videoverhalen met Geheugen
StoryMem: Multi-shot Long Video Storytelling with Memory
December 22, 2025
Auteurs: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan
cs.AI
Samenvatting
Visuele storytelling vereist het genereren van multi-shot video's met cinematografische kwaliteit en consistentie over lange reeksen. Geïnspireerd door het menselijk geheugen, stellen wij StoryMem voor, een paradigma dat lange-video storytelling herformuleert als iteratieve shot-synthese, geconditioneerd op expliciet visueel geheugen, waarbij voorgetrainde single-shot video-diffusiemodellen worden getransformeerd in multi-shot storytellers. Dit wordt bereikt door een nieuw Memory-to-Video (M2V) ontwerp, dat een compacte en dynamisch bijgewerkte geheugenbank van keyframes uit gegenereerde historische shots onderhoudt. Het opgeslagen geheugen wordt vervolgens geïnjecteerd in single-shot video-diffusiemodellen via latente concatenatie en negatieve RoPE-shifts, met alleen LoRA fine-tuning. Een semantische keyframe-selectiestrategie, samen met esthetische voorkeursfiltering, zorgt verder voor informatieve en stabiele geheugentoegang tijdens de generatie. Bovendien biedt het voorgestelde framework natuurlijk ruimte voor vloeiende shotovergangen en toepassingen voor gepersonaliseerde storygeneratie. Om evaluatie te vergemakkelijken, introduceren we ST-Bench, een gevarieerde benchmark voor multi-shot video storytelling. Uitgebreide experimenten tonen aan dat StoryMem superieure consistentie tussen shots bereikt ten opzichte van eerdere methoden, terwijl het een hoge esthetische kwaliteit en prompt-naleving behoudt, wat een significante stap markeert richting coherente minutenlange video storytelling.
English
Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.