PermaVid: Konsistente Videogenerierung über Bearbeitungen hinweg durch entkoppeltes Kontextgedächtnis

Zusammenfassung

Konsistente Videogenerierung unter Bearbeitungsoperationen erfordert Persistenz: Wenn Bearbeitungen das Erscheinungsbild oder Layout einer Szene verändern, müssen nachfolgende Generationen über Zeit und Blickwinkel hinweg kohärent bleiben. Bestehende Speicherkonzepte haben jedoch Schwierigkeiten, nach solchen Änderungen eine langfristige Konsistenz aufrechtzuerhalten, da gespeicherte Kontexte veralten oder ungültig werden können. Um dies zu adressieren, schlagen wir PermaVid vor, ein neuartiges Framework, das auf einem multimodalen Kontextspeicher aufbaut, der den räumlichen Kontext in semantische Erscheinung und geometrische Struktur aufteilt, zusammen mit einer bearbeitungsbewussten Speicheraktualisierungs- und Abrufstrategie, die die Speicherentwicklung an nachfolgende Beobachtungen anpasst. Konkret entwickeln wir zwei komplementäre Speicherbänke: einen RGB-Kontextspeicher, der erscheinungsbewusste Beobachtungen erfasst und gleichzeitig Geometrie implizit codiert, und einen Tiefenkontextspeicher, der die rein geometrische Struktur, losgelöst von Semantik, bewahrt. Aufbauend auf diesem Design führen wir ein speichergesteuertes Videogenerierungsmodell ein, das multimodale Merkmalsfusion unter Referenzbedingungen durchführt, die aus gemischtmodalen Speicherkontexten stammen. Experimente zeigen, dass unsere Methode nach Bearbeitungen eine starke langfristige semantische und strukturelle Konsistenz aufrechterhält und moderne Methoden deutlich übertrifft.

English

Consistent video generation under editing operations requires persistence: when edits modify scene appearance or layout, subsequent generations should remain coherent across time and viewpoints. However, existing memory designs struggle to maintain long-term consistency after such modifications, as stored contexts may become outdated or invalid. To address this, we propose PermaVid, a novel framework built upon a multi-modal context memory that disentangles spatial context into semantic appearance and geometric structure, together with an edit-aware memory update and retrieval strategy that keeps memory evolution aligned with subsequent observations. Specifically, we develop two complementary memory banks: an RGB context memory that captures appearance-aware observations while implicitly encoding geometry, and a depth context memory that preserves geometry-only structure disentangled from semantics. Building on this design, we introduce a memory-guided video generation model that performs multi-modal feature fusion under reference conditions drawn from mixed-modality memory contexts. Experiments demonstrate that our method maintains strong long-term semantic and structural consistency after edits, significantly outperforming state-of-the-art methods.