ChatPaper.aiChatPaper

MemFlow: Fließender adaptiver Speicher für konsistente und effiziente Langzeit-Videonarrative

MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives

December 16, 2025
papers.authors: Sihui Ji, Xi Chen, Shuai Yang, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI

papers.abstract

Die zentrale Herausforderung bei der Erzeugung von Streaming-Videos besteht darin, die Inhaltskonsistenz über lange Kontexte hinweg aufrechtzuerhalten, was hohe Anforderungen an das Speicherdesign stellt. Die meisten bestehenden Lösungen verwalten den Speicher, indem sie historische Frames mit vordefinierten Strategien komprimieren. Allerdings sollten verschiedene zu generierende Videosegmente auf unterschiedliche historische Hinweise zurückgreifen, was mit festen Strategien nur schwer zu erreichen ist. In dieser Arbeit schlagen wir MemFlow vor, um dieses Problem zu lösen. Konkret aktualisieren wir vor der Generierung des nächsten Segments den Speicherbank dynamisch, indem wir die relevantesten historischen Frames anhand des Textprompts für dieses Segment abrufen. Dieser Ansatz gewährleistet narrative Kohärenz, selbst wenn neue Ereignisse auftreten oder sich Szenarien in zukünftigen Frames ändern. Zusätzlich aktivieren wir während der Generierung für jede Abfrage in den Attention-Layern nur die relevantesten Tokens in der Speicherbank, was die Generierungseffizienz wirksam sicherstellt. Auf diese Weise erreicht MemFlow eine herausragende Langzeitkonsistenz mit vernachlässigbarem Rechenaufwand (nur 7,9% Geschwindigkeitsreduktion im Vergleich zum speicherfreien Baseline-Modell) und bleibt mit jedem Streaming-Videogenerierungsmodell mit KV-Cache kompatibel.
English
The core challenge for streaming video generation is maintaining the content consistency in long context, which poses high requirement for the memory design. Most existing solutions maintain the memory by compressing historical frames with predefined strategies. However, different to-generate video chunks should refer to different historical cues, which is hard to satisfy with fixed strategies. In this work, we propose MemFlow to address this problem. Specifically, before generating the coming chunk, we dynamically update the memory bank by retrieving the most relevant historical frames with the text prompt of this chunk. This design enables narrative coherence even if new event happens or scenario switches in future frames. In addition, during generation, we only activate the most relevant tokens in the memory bank for each query in the attention layers, which effectively guarantees the generation efficiency. In this way, MemFlow achieves outstanding long-context consistency with negligible computation burden (7.9% speed reduction compared with the memory-free baseline) and keeps the compatibility with any streaming video generation model with KV cache.
PDF201December 18, 2025