PermaVid : Génération cohérente de vidéos à travers les modifications via une mémoire de contexte désintriquée

Résumé

La génération cohérente de vidéos sous des opérations d'édition nécessite de la persistance : lorsque les modifications altèrent l'apparence ou la disposition de la scène, les générations ultérieures doivent rester cohérentes dans le temps et à travers les points de vue. Cependant, les conceptions de mémoire existantes peinent à maintenir une cohérence à long terme après de telles modifications, car les contextes stockés peuvent devenir obsolètes ou invalides. Pour remédier à cela, nous proposons PermaVid, un nouveau cadre fondé sur une mémoire contextuelle multimodale qui désolidarise le contexte spatial en apparence sémantique et en structure géométrique, associé à une stratégie de mise à jour et de récupération de mémoire sensible aux éditions, garantissant que l'évolution de la mémoire reste alignée avec les observations ultérieures. Plus précisément, nous développons deux banques de mémoire complémentaires : une mémoire de contexte RGB qui capture les observations liées à l'apparence tout en encodant implicitement la géométrie, et une mémoire de contexte de profondeur qui préserve une structure uniquement géométrique, désolidarisée de la sémantique. Sur la base de cette conception, nous introduisons un modèle de génération vidéo guidé par la mémoire qui effectue une fusion de caractéristiques multimodales sous des conditions de référence issues de contextes mémoire de modalités mixtes. Les expériences démontrent que notre méthode maintient une forte cohérence sémantique et structurelle à long terme après les éditions, surpassant significativement les méthodes de pointe.

English

Consistent video generation under editing operations requires persistence: when edits modify scene appearance or layout, subsequent generations should remain coherent across time and viewpoints. However, existing memory designs struggle to maintain long-term consistency after such modifications, as stored contexts may become outdated or invalid. To address this, we propose PermaVid, a novel framework built upon a multi-modal context memory that disentangles spatial context into semantic appearance and geometric structure, together with an edit-aware memory update and retrieval strategy that keeps memory evolution aligned with subsequent observations. Specifically, we develop two complementary memory banks: an RGB context memory that captures appearance-aware observations while implicitly encoding geometry, and a depth context memory that preserves geometry-only structure disentangled from semantics. Building on this design, we introduce a memory-guided video generation model that performs multi-modal feature fusion under reference conditions drawn from mixed-modality memory contexts. Experiments demonstrate that our method maintains strong long-term semantic and structural consistency after edits, significantly outperforming state-of-the-art methods.