MemFlow: Memória Adaptativa Fluida para Narrativas Longas de Vídeo Consistentes e Eficientes

Resumo

O principal desafio da geração de vídeo em streaming é manter a consistência do conteúdo em contextos longos, o que impõe altos requisitos para o design de memória. A maioria das soluções existentes mantém a memória comprimindo quadros históricos com estratégias predefinidas. No entanto, diferentes segmentos de vídeo a serem gerados devem referenciar diferentes pistas históricas, o que é difícil de satisfazer com estratégias fixas. Neste trabalho, propomos o MemFlow para abordar esse problema. Especificamente, antes de gerar o próximo segmento, atualizamos dinamicamente o banco de memória recuperando os quadros históricos mais relevantes usando o prompt de texto desse segmento. Esse design permite coerência narrativa mesmo que novos eventos ocorram ou haja mudanças de cenário em quadros futuros. Além disso, durante a geração, ativamos apenas os tokens mais relevantes no banco de memória para cada consulta nas camadas de atenção, o que garante efetivamente a eficiência da geração. Dessa forma, o MemFlow alcança uma consistência excepcional em contextos longos com carga computacional insignificante (redução de velocidade de 7,9% em comparação com a baseline sem memória) e mantém compatibilidade com qualquer modelo de geração de vídeo em streaming com cache KV.

English

The core challenge for streaming video generation is maintaining the content consistency in long context, which poses high requirement for the memory design. Most existing solutions maintain the memory by compressing historical frames with predefined strategies. However, different to-generate video chunks should refer to different historical cues, which is hard to satisfy with fixed strategies. In this work, we propose MemFlow to address this problem. Specifically, before generating the coming chunk, we dynamically update the memory bank by retrieving the most relevant historical frames with the text prompt of this chunk. This design enables narrative coherence even if new event happens or scenario switches in future frames. In addition, during generation, we only activate the most relevant tokens in the memory bank for each query in the attention layers, which effectively guarantees the generation efficiency. In this way, MemFlow achieves outstanding long-context consistency with negligible computation burden (7.9% speed reduction compared with the memory-free baseline) and keeps the compatibility with any streaming video generation model with KV cache.

MemFlow: Memória Adaptativa Fluida para Narrativas Longas de Vídeo Consistentes e Eficientes

MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives

Resumo

Support