ChatPaper.aiChatPaper

MemFlow: Vloeiend Adaptief Geheugen voor Consistente en Efficiënte Lange Videoverhalen

MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives

December 16, 2025
Auteurs: Sihui Ji, Xi Chen, Shuai Yang, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI

Samenvatting

De kernuitdaging bij het genereren van streamingsvideo is het handhaven van inhoudelijke consistentie over een lange context, wat hoge eisen stelt aan het geheugenontwerp. De meeste bestaande oplossingen onderhouden het geheugen door historische frames te comprimeren met vooraf gedefinieerde strategieën. Echter, verschillende te genereren videosegmenten zouden moeten verwijzen naar verschillende historische cues, wat moeilijk te realiseren is met vaste strategieën. In dit werk stellen we MemFlow voor om dit probleem aan te pakken. Concreet werken we, voordat het volgende segment gegenereerd wordt, het geheugenbank dynamisch bij door de meest relevante historische frames op te halen met behulp van de tekstprompt van dit segment. Dit ontwerp zorgt voor narratieve samenhang, zelfs als er nieuwe gebeurtenissen plaatsvinden of scenario's wisselen in toekomstige frames. Daarnaast activeren we tijdens de generatie alleen de meest relevante tokens in de geheugenbank voor elke query in de aandachtslagen, wat de generatie-efficiëntie effectief waarborgt. Op deze manier bereikt MemFlow uitstekende lange-context consistentie met een verwaarloosbare rekentijd toename (7.9% snelheidsverlies vergeleken met de geheugenloze baseline) en behoudt het de compatibiliteit met elk streamingsvideo-generatiemodel met KV-cache.
English
The core challenge for streaming video generation is maintaining the content consistency in long context, which poses high requirement for the memory design. Most existing solutions maintain the memory by compressing historical frames with predefined strategies. However, different to-generate video chunks should refer to different historical cues, which is hard to satisfy with fixed strategies. In this work, we propose MemFlow to address this problem. Specifically, before generating the coming chunk, we dynamically update the memory bank by retrieving the most relevant historical frames with the text prompt of this chunk. This design enables narrative coherence even if new event happens or scenario switches in future frames. In addition, during generation, we only activate the most relevant tokens in the memory bank for each query in the attention layers, which effectively guarantees the generation efficiency. In this way, MemFlow achieves outstanding long-context consistency with negligible computation burden (7.9% speed reduction compared with the memory-free baseline) and keeps the compatibility with any streaming video generation model with KV cache.
PDF201December 18, 2025