PermaVid: Generación de video consistente a través de ediciones mediante memoria de contexto desenredada

Resumen

La generación coherente de video bajo operaciones de edición requiere persistencia: cuando las ediciones modifican la apariencia de la escena o su diseño, las generaciones posteriores deben mantenerse coherentes a lo largo del tiempo y los puntos de vista. Sin embargo, los diseños de memoria existentes tienen dificultades para mantener la consistencia a largo plazo después de dichas modificaciones, ya que los contextos almacenados pueden volverse obsoletos o inválidos. Para abordar esto, proponemos PermaVid, un marco novedoso basado en una memoria de contexto multimodal que separa el contexto espacial en apariencia semántica y estructura geométrica, junto con una estrategia de actualización y recuperación de memoria consciente de la edición que mantiene la evolución de la memoria alineada con las observaciones posteriores. Específicamente, desarrollamos dos bancos de memoria complementarios: una memoria de contexto RGB que captura observaciones relacionadas con la apariencia mientras codifica implícitamente la geometría, y una memoria de contexto de profundidad que preserva una estructura exclusivamente geométrica, desvinculada de la semántica. Sobre la base de este diseño, introducimos un modelo de generación de video guiado por memoria que realiza fusión de características multimodales bajo condiciones de referencia extraídas de contextos de memoria de modalidad mixta. Los experimentos demuestran que nuestro método mantiene una fuerte consistencia semántica y estructural a largo plazo después de las ediciones, superando significativamente a los métodos de última generación.

English

Consistent video generation under editing operations requires persistence: when edits modify scene appearance or layout, subsequent generations should remain coherent across time and viewpoints. However, existing memory designs struggle to maintain long-term consistency after such modifications, as stored contexts may become outdated or invalid. To address this, we propose PermaVid, a novel framework built upon a multi-modal context memory that disentangles spatial context into semantic appearance and geometric structure, together with an edit-aware memory update and retrieval strategy that keeps memory evolution aligned with subsequent observations. Specifically, we develop two complementary memory banks: an RGB context memory that captures appearance-aware observations while implicitly encoding geometry, and a depth context memory that preserves geometry-only structure disentangled from semantics. Building on this design, we introduce a memory-guided video generation model that performs multi-modal feature fusion under reference conditions drawn from mixed-modality memory contexts. Experiments demonstrate that our method maintains strong long-term semantic and structural consistency after edits, significantly outperforming state-of-the-art methods.