MemFlow: Memoria Adattiva Fluttuante per Narrazioni Video Lunghe Coerenti ed Efficienti
MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives
December 16, 2025
Autori: Sihui Ji, Xi Chen, Shuai Yang, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
Abstract
La sfida principale per la generazione di video in streaming è mantenere la coerenza del contenuto in contesti lunghi, il che richiede una progettazione avanzata della memoria. La maggior parte delle soluzioni esistenti mantiene la memoria comprimendo i frame storici con strategie predefinite. Tuttavia, i diversi segmenti video da generare dovrebbero fare riferimento a indizi storici differenti, un requisito difficile da soddisfare con strategie fisse. In questo lavoro, proponiamo MemFlow per affrontare questo problema. Nello specifico, prima di generare il segmento successivo, aggiorniamo dinamicamente la memory bank recuperando i frame storici più rilevanti in base al prompt testuale del segmento. Questo design garantisce coerenza narrativa anche quando accadono nuovi eventi o cambiano scenari nei frame successivi. Inoltre, durante la generazione, attiviamo solo i token più rilevanti nella memory bank per ogni query negli strati di attention, garantendo efficacemente l'efficienza generativa. In questo modo, MemFlow raggiunge un'eccezionale coerenza contestuale lunga con un carico computazionale trascurabile (riduzione della velocità del 7,9% rispetto al baseline senza memoria) e mantiene la compatibilità con qualsiasi modello di generazione video in streaming dotato di KV cache.
English
The core challenge for streaming video generation is maintaining the content consistency in long context, which poses high requirement for the memory design. Most existing solutions maintain the memory by compressing historical frames with predefined strategies. However, different to-generate video chunks should refer to different historical cues, which is hard to satisfy with fixed strategies. In this work, we propose MemFlow to address this problem. Specifically, before generating the coming chunk, we dynamically update the memory bank by retrieving the most relevant historical frames with the text prompt of this chunk. This design enables narrative coherence even if new event happens or scenario switches in future frames. In addition, during generation, we only activate the most relevant tokens in the memory bank for each query in the attention layers, which effectively guarantees the generation efficiency. In this way, MemFlow achieves outstanding long-context consistency with negligible computation burden (7.9% speed reduction compared with the memory-free baseline) and keeps the compatibility with any streaming video generation model with KV cache.