StoryMem: 메모리 기반 멀티샷 장편 동영상 스토리텔링
StoryMem: Multi-shot Long Video Storytelling with Memory
December 22, 2025
저자: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan
cs.AI
초록
시각적 스토리텔링은 영화적 품질과 장면 간 일관성을 갖춘 다중 샷 비디오 생성이 필요합니다. 인간의 기억에서 영감을 받아, 우리는 장편 비디오 스토리텔링을 명시적 시각 메모리에 기반한 반복적 샷 합성으로 재구성하는 StoryMem 패러다임을 제안합니다. 이는 사전 학습된 단일 샷 비디오 확산 모델을 다중 샷 스토리텔러로 변환합니다. 이는 과거 생성된 샷들의 키프레임으로 구성된 간결하고 동적으로 업데이트되는 메모리 뱅크를 유지하는 새로운 M2V(Memory-to-Video) 설계를 통해 달성됩니다. 저장된 메모리는 잠재 공간 연결과 음의 RoPE 이동을 통해 LoRA 파인튜닝만으로 단일 샷 비디오 확산 모델에 주입됩니다. 의미론적 키프레임 선택 전략과 미적 선호도 필터링은 생성 전반에 걸쳐 유익하고 안정적인 메모리를 추가로 보장합니다. 더 나아가, 제안된 프레임워크는 부드러운 샷 전환과 맞춤형 스토리 생성 애플리케이션을 자연스럽게 수용합니다. 평가를 용이하게 하기 위해, 우리는 다중 샷 비디오 스토리텔링을 위한 다양한 벤치마크인 ST-Bench를 소개합니다. 광범위한 실험을 통해 StoryMem이 높은 미적 품질과 프롬프트 준수를 유지하면서 기존 방법 대비 뛰어난 샷 간 일관성을 달성함을 입증하며, 일관성 있는 분 단위 장편 비디오 스토리텔링을 위한 중요한 진전을 이루었습니다.
English
Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.