StoryMem:メモリを用いたマルチショット長編動画のストーリーテリング
StoryMem: Multi-shot Long Video Storytelling with Memory
December 22, 2025
著者: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan
cs.AI
要旨
視覚的ストーリーテリングには、映画的な品質と長期的な一貫性を備えたマルチショット動画の生成が要求される。本研究では、人間の記憶メカニズムに着想を得て、長編動画のストーリーテリングを、明示的な視覚的メモリを条件とした反復的なショット合成として再定義するパラダイム「StoryMem」を提案する。これにより、事前学習済みの単発動画拡散モデルをマルチショット・ストーリーテラーへ変換する。この実現に向け、新たなMemory-to-Video(M2V)設計を導入した。これは、過去に生成したショットから抽出したキーフレームを、コンパクトかつ動的に更新されるメモリバンクに保持する。保存されたメモリは、Latent空間での連結と負のRoPEシフトを用いて、LoRAファインチューニングのみで単発動画拡散モデルに注入される。さらに、意味的なキーフレーム選択戦略と美的選好フィルタリングにより、生成過程を通じて情報量豊かで安定したメモリが保証される。加えて、提案フレームワークは、滑らかなショット遷移やカスタマイズされたストーリー生成アプリケーションを自然に支援する。評価を促進するため、多様なマルチショット動画ストーリーテリングのベンチマーク「ST-Bench」を構築した。大規模な実験により、StoryMemが従来手法を上回るショット間の一貫性を達成しつつ、高い美的品質とプロンプトへの忠実性を維持することを実証した。これは、コヒーレントな数分規模の動画ストーリーテリングに向けた重要な進展を示すものである。
English
Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.