ChatPaper.aiChatPaper

StoryMem: Multishot-Langzeit-Videostorytelling mit Gedächtnisfunktion

StoryMem: Multi-shot Long Video Storytelling with Memory

December 22, 2025
papers.authors: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan
cs.AI

papers.abstract

Visuelles Storytelling erfordert die Erzeugung von Mehrfach-Szenen-Videos mit cineastischer Qualität und langfristiger Konsistenz. Inspiriert vom menschlichen Gedächtnis schlagen wir StoryMem vor, ein Paradigma, das die Erzählung langer Videos als iterative Szenensynthese neu formuliert, die von explizitem visuellem Gedächtnis gesteuert wird, und dabei vortrainierte Einzel-Szenen-Video-Diffusionsmodelle in Mehrfach-Szenen-Geschichtenerzähler verwandelt. Dies wird durch ein neuartiges Memory-to-Video (M2V) Design erreicht, das eine kompakte und dynamisch aktualisierte Gedächtnisbank von Keyframes aus historisch generierten Szenen verwaltet. Der gespeicherte Gedächtnisinhalt wird dann via latenter Konkatenation und negativen RoPE-Shifts unter ausschließlicher LoRA-Feinabstimmung in Einzel-Szenen-Video-Diffusionsmodelle injiziert. Eine semantische Keyframe-Auswahlstrategie, kombiniert mit ästhetischer Präferenzfilterung, gewährleistet weiterhin informative und stabile Gedächtnisinhalte während der gesamten Generierung. Darüber hinaus ermöglicht der vorgeschlagene Rahmen natürlicherweise fließende Szenenübergänge und angepasste Story-Generierungsanwendungen. Zur Erleichterung der Evaluation führen wir ST-Bench ein, einen diversen Benchmark für Mehrfach-Szenen-Video-Storytelling. Umfangreiche Experimente zeigen, dass StoryMem eine überlegene konsistente Szenenübergreifende Konsistenz gegenüber bisherigen Methoden erreicht und dabei hohe ästhetische Qualität und Prompt-Treue bewahrt, was einen bedeutenden Schritt in Richtung kohärenter minutenlanger Video-Erzählungen markiert.
English
Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.
PDF103December 24, 2025