PermaVid: Consistente videogeneratie over bewerkingen heen via ontward contextgeheugen

Samenvatting

Consistente videogeneratie onder bewerkingsoperaties vereist persistentie: wanneer bewerkingen het uiterlijk of de lay-out van een scène wijzigen, moeten volgende generaties coherent blijven in tijd en gezichtspunten. Echter, bestaande geheugenontwerpen hebben moeite om langdurige consistentie te behouden na dergelijke wijzigingen, omdat opgeslagen contexten verouderd of ongeldig kunnen worden. Om dit aan te pakken, stellen we PermaVid voor, een nieuw raamwerk dat is gebouwd op een multimodaal contextgeheugen dat ruimtelijke context ontwart in semantisch uiterlijk en geometrische structuur, samen met een bewerkingsbewuste geheugenupdate en -ophaalstrategie die de geheugenevolutie afstemt op volgende observaties. Specifiek ontwikkelen we twee complementaire geheugenbanken: een RGB-contextgeheugen dat uiterlijkbewuste observaties vastlegt terwijl het impliciet geometrie codeert, en een dieptecontextgeheugen dat alleen-geometrische structuur behoudt, losgekoppeld van semantiek. Voortbouwend op dit ontwerp introduceren we een geheugengeleid videogeneratiemodel dat multimodale kenmerkfusie uitvoert onder referentiecondities die zijn ontleend aan gemengd-modale geheugencontexten. Experimenten tonen aan dat onze methode sterke langdurige semantische en structurele consistentie behoudt na bewerkingen, en aanzienlijk beter presteert dan state-of-the-art methoden.

English

Consistent video generation under editing operations requires persistence: when edits modify scene appearance or layout, subsequent generations should remain coherent across time and viewpoints. However, existing memory designs struggle to maintain long-term consistency after such modifications, as stored contexts may become outdated or invalid. To address this, we propose PermaVid, a novel framework built upon a multi-modal context memory that disentangles spatial context into semantic appearance and geometric structure, together with an edit-aware memory update and retrieval strategy that keeps memory evolution aligned with subsequent observations. Specifically, we develop two complementary memory banks: an RGB context memory that captures appearance-aware observations while implicitly encoding geometry, and a depth context memory that preserves geometry-only structure disentangled from semantics. Building on this design, we introduce a memory-guided video generation model that performs multi-modal feature fusion under reference conditions drawn from mixed-modality memory contexts. Experiments demonstrate that our method maintains strong long-term semantic and structural consistency after edits, significantly outperforming state-of-the-art methods.