PermaVid: Geração Consistente de Vídeos Através de Edições via Memória de Contexto Desacoplada

Resumo

A geração consistente de vídeos sob operações de edição requer persistência: quando edições modificam a aparência ou o layout da cena, as gerações subsequentes devem permanecer coerentes ao longo do tempo e dos pontos de vista. No entanto, os designs de memória existentes têm dificuldade em manter a consistência de longo prazo após tais modificações, pois os contextos armazenados podem se tornar desatualizados ou inválidos. Para lidar com isso, propomos o PermaVid, uma nova estrutura baseada em uma memória de contexto multimodal que separa o contexto espacial em aparência semântica e estrutura geométrica, juntamente com uma estratégia de atualização e recuperação de memória consciente de edições que mantém a evolução da memória alinhada com observações subsequentes. Especificamente, desenvolvemos dois bancos de memória complementares: uma memória de contexto RGB que captura observações cientes da aparência enquanto codifica implicitamente a geometria, e uma memória de contexto de profundidade que preserva a estrutura apenas geométrica, separada da semântica. Com base nesse design, introduzimos um modelo de geração de vídeo guiado por memória que realiza fusão de características multimodais sob condições de referência extraídas de contextos de memória de modalidade mista. Experimentos demonstram que nosso método mantém forte consistência semântica e estrutural de longo prazo após edições, superando significativamente os métodos estado da arte.

English

Consistent video generation under editing operations requires persistence: when edits modify scene appearance or layout, subsequent generations should remain coherent across time and viewpoints. However, existing memory designs struggle to maintain long-term consistency after such modifications, as stored contexts may become outdated or invalid. To address this, we propose PermaVid, a novel framework built upon a multi-modal context memory that disentangles spatial context into semantic appearance and geometric structure, together with an edit-aware memory update and retrieval strategy that keeps memory evolution aligned with subsequent observations. Specifically, we develop two complementary memory banks: an RGB context memory that captures appearance-aware observations while implicitly encoding geometry, and a depth context memory that preserves geometry-only structure disentangled from semantics. Building on this design, we introduce a memory-guided video generation model that performs multi-modal feature fusion under reference conditions drawn from mixed-modality memory contexts. Experiments demonstrate that our method maintains strong long-term semantic and structural consistency after edits, significantly outperforming state-of-the-art methods.