ChatPaper.aiChatPaper

StoryMem : Narration d'histoires pour vidéos longues multi-séquences avec mémoire

StoryMem: Multi-shot Long Video Storytelling with Memory

December 22, 2025
papers.authors: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan
cs.AI

papers.abstract

La narration visuelle nécessite la génération de vidéos multi-plans d'une qualité cinématographique avec une cohérence à long terme. Inspirés par la mémoire humaine, nous proposons StoryMem, un paradigme qui reformule la création de vidéos longues comme une synthèse itérative de plans conditionnée par une mémoire visuelle explicite, transformant ainsi les modèles de diffusion vidéo monocadre pré-entraînés en conteurs multi-plans. Ceci est réalisé grâce à une conception novatrice Mémoire-vers-Vidéo (M2V), qui maintient une banque de mémoire compacte et dynamiquement mise à jour contenant des images clés des plans générés précédemment. La mémoire stockée est ensuite injectée dans les modèles de diffusion vidéo monocadre via une concaténation latente et des décalages RoPE négatifs, avec seulement un réglage fin par LoRA. Une stratégie de sélection sémantique des images clés, associée à un filtrage par préférence esthétique, garantit en outre une mémoire informative et stable tout au long de la génération. De plus, le cadre proposé intègre naturellement des transitions fluides entre les plans et des applications de génération d'histoires personnalisées. Pour faciliter l'évaluation, nous présentons ST-Bench, un benchmark diversifié pour la narration vidéo multi-plans. Des expériences approfondies démontrent que StoryMem atteint une cohérence inter-plans supérieure aux méthodes antérieures tout en préservant une haute qualité esthétique et une fidélité au prompt, représentant une avancée significative vers la création de vidéos cohérentes d'une durée de plusieurs minutes.
English
Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.
PDF103December 24, 2025