MemFlow: Адаптивная память с потоковой передачей для согласованного и эффективного повествования в длинных видео
MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives
December 16, 2025
Авторы: Sihui Ji, Xi Chen, Shuai Yang, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
Аннотация
Основная проблема потокового генерации видео заключается в сохранении согласованности контента в длинном контексте, что предъявляет высокие требования к проектированию памяти. Большинство существующих решений поддерживают память путем сжатия исторических кадров с использованием предопределенных стратегий. Однако различные генерируемые сегменты видео должны обращаться к различным историческим ключам, что трудно обеспечить фиксированными стратегиями. В данной работе мы предлагаем MemFlow для решения этой проблемы. В частности, перед генерацией очередного сегмента мы динамически обновляем банк памяти, извлекая наиболее релевантные исторические кадры с помощью текстового промпта для этого сегмента. Такой подход обеспечивает нарративную связность даже при возникновении новых событий или смене сценария в последующих кадрах. Кроме того, в процессе генерации мы активируем только наиболее релевантные токены в банке памяти для каждого запроса в слоях внимания, что эффективно гарантирует производительность генерации. Таким образом, MemFlow достигает выдающейся согласованности в длинном контексте с пренебрежимо малыми вычислительными затратами (снижение скорости на 7.9% по сравнению с базовым методом без памяти) и сохраняет совместимость с любой моделью потоковой генерации видео, использующей KV-кэш.
English
The core challenge for streaming video generation is maintaining the content consistency in long context, which poses high requirement for the memory design. Most existing solutions maintain the memory by compressing historical frames with predefined strategies. However, different to-generate video chunks should refer to different historical cues, which is hard to satisfy with fixed strategies. In this work, we propose MemFlow to address this problem. Specifically, before generating the coming chunk, we dynamically update the memory bank by retrieving the most relevant historical frames with the text prompt of this chunk. This design enables narrative coherence even if new event happens or scenario switches in future frames. In addition, during generation, we only activate the most relevant tokens in the memory bank for each query in the attention layers, which effectively guarantees the generation efficiency. In this way, MemFlow achieves outstanding long-context consistency with negligible computation burden (7.9% speed reduction compared with the memory-free baseline) and keeps the compatibility with any streaming video generation model with KV cache.