ChatPaper.aiChatPaper

StoryMem: Многокадровое повествование длинных видео с использованием памяти

StoryMem: Multi-shot Long Video Storytelling with Memory

December 22, 2025
Авторы: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan
cs.AI

Аннотация

Визуальное повествование требует генерации многокадровых видео с кинематографическим качеством и долгосрочной согласованностью. Вдохновляясь человеческой памятью, мы предлагаем StoryMem — парадигму, которая переформулирует создание длинных видео-историй как итеративный синтез кадров, обусловленный явной визуальной памятью, превращая предварительно обученные модели диффузии для одиночных кадров в многокадровых рассказчиков. Это достигается за счёт новой архитектуры «Память-в-Видео» (Memory-to-Video, M2V), которая поддерживает компактный и динамически обновляемый банк памяти, содержащий ключевые кадры из ранее сгенерированных сцен. Сохранённая память затем внедряется в модели диффузии для одиночных кадров посредством конкатенации в латентном пространстве и отрицательных сдвигов RoPE, используя лишь тонкую настройку LoRA. Стратегия семантического выбора ключевых кадров в сочетании с фильтрацией по эстетическим предпочтениям дополнительно обеспечивает информативную и стабильную память на протяжении всей генерации. Более того, предложенная框架 естественным образом поддерживает плавные переходы между сценами и приложения для генерации пользовательских историй. Для облегчения оценки мы представляем ST-Bench — разнообразный бенчмарк для многокадрового визуального повествования. Многочисленные эксперименты демонстрируют, что StoryMem достигает превосходной межкадровой согласованности по сравнению с предыдущими методами, сохраняя при этом высокое эстетическое качество и соответствие промпту, что знаменует значительный шаг к созданию связных минутных видео-историй.
English
Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.
PDF103December 24, 2025