PermaVid: Согласованная генерация видео при редактированиях посредством раздельной контекстной памяти

Аннотация

Согласованная генерация видео при операциях редактирования требует постоянства: когда правки изменяют внешний вид сцены или компоновку, последующие генерации должны оставаться согласованными во времени и с разных точек обзора. Однако существующие конструкции памяти испытывают трудности с поддержанием долгосрочной согласованности после таких модификаций, поскольку сохраненные контексты могут устареть или стать недействительными. Чтобы решить эту проблему, мы предлагаем PermaVid — новую структуру, основанную на многомодальной контекстной памяти, которая разделяет пространственный контекст на семантическую внешность и геометрическую структуру, а также редакционно-осознанную стратегию обновления и извлечения памяти, обеспечивающую согласование эволюции памяти с последующими наблюдениями. Конкретно, мы разрабатываем два взаимодополняющих банка памяти: RGB контекстную память, которая фиксирует наблюдения, учитывающие внешность, неявно кодируя геометрию, и глубинную контекстную память, которая сохраняет структуру только геометрии, отделенную от семантики. Основываясь на этой конструкции, мы внедряем управляемую памятью модель генерации видео, которая выполняет многомодальное слияние признаков при эталонных условиях, извлеченных из контекстов памяти смешанной модальности. Эксперименты демонстрируют, что наш метод поддерживает высокую долгосрочную семантическую и структурную согласованность после редактирования, значительно превосходя современные методы.

English

Consistent video generation under editing operations requires persistence: when edits modify scene appearance or layout, subsequent generations should remain coherent across time and viewpoints. However, existing memory designs struggle to maintain long-term consistency after such modifications, as stored contexts may become outdated or invalid. To address this, we propose PermaVid, a novel framework built upon a multi-modal context memory that disentangles spatial context into semantic appearance and geometric structure, together with an edit-aware memory update and retrieval strategy that keeps memory evolution aligned with subsequent observations. Specifically, we develop two complementary memory banks: an RGB context memory that captures appearance-aware observations while implicitly encoding geometry, and a depth context memory that preserves geometry-only structure disentangled from semantics. Building on this design, we introduce a memory-guided video generation model that performs multi-modal feature fusion under reference conditions drawn from mixed-modality memory contexts. Experiments demonstrate that our method maintains strong long-term semantic and structural consistency after edits, significantly outperforming state-of-the-art methods.