MemFlow : Mémoire adaptative fluide pour des narrations vidéo longues cohérentes et efficaces
MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives
December 16, 2025
papers.authors: Sihui Ji, Xi Chen, Shuai Yang, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
papers.abstract
Le principal défi de la génération de vidéos en flux continu est de maintenir la cohérence du contenu sur un contexte long, ce qui exige une conception mémoire sophistiquée. La plupart des solutions existantes gèrent la mémoire en compressant les images historiques selon des stratégies prédéfinies. Cependant, différents segments vidéo à générer devraient s'appuyer sur des indices historiques distincts, ce qu'une stratégie fixe peine à satisfaire. Dans ce travail, nous proposons MemFlow pour résoudre ce problème. Plus précisément, avant de générer le segment suivant, nous mettons à jour dynamiquement la banque mémoire en retrouvant les images historiques les plus pertinentes via l'invitation textuelle associée à ce segment. Cette conception assure une cohérence narrative même en cas de nouveaux événements ou de changements de scénario dans les images futures. De plus, lors de la génération, nous n'activons que les tokens les plus pertinents de la banque mémoire pour chaque requête dans les couches d'attention, garantissant ainsi efficacement l'efficacité de la génération. Ainsi, MemFlow atteint une cohérence exceptionnelle sur contexte long avec une charge computationnelle négligeable (réduction de vitesse de 7,9 % par rapport à la baseline sans mémoire) et préserve la compatibilité avec tout modèle de génération vidéo en flux continu utilisant un cache KV.
English
The core challenge for streaming video generation is maintaining the content consistency in long context, which poses high requirement for the memory design. Most existing solutions maintain the memory by compressing historical frames with predefined strategies. However, different to-generate video chunks should refer to different historical cues, which is hard to satisfy with fixed strategies. In this work, we propose MemFlow to address this problem. Specifically, before generating the coming chunk, we dynamically update the memory bank by retrieving the most relevant historical frames with the text prompt of this chunk. This design enables narrative coherence even if new event happens or scenario switches in future frames. In addition, during generation, we only activate the most relevant tokens in the memory bank for each query in the attention layers, which effectively guarantees the generation efficiency. In this way, MemFlow achieves outstanding long-context consistency with negligible computation burden (7.9% speed reduction compared with the memory-free baseline) and keeps the compatibility with any streaming video generation model with KV cache.