Soap2Soap: длительное кинематографическое пересоздание видео с помощью многоагентного сотрудничества

Аннотация

Мы изучаем киноремейкинг на уровне сериалов — задачу генерации видео-в-видео на длительных горизонтах, которая локализует целые эпизоды или фильмы с помощью стилизации или замены актера, строго сохраняя повествовательную структуру, хореографию движений и идентичность персонажей на протяжении сотен кадров. Существующие пайплайны генерации и редактирования видео часто дают сбой в этом режиме из-за усугубляющегося дрейфа идентичности, мутации фона и семантической эрозии при больших движениях камеры и изменениях ракурса. Мы предлагаем Soap2Soap — мультиагентную структуру, которая обеспечивает долгосрочную языково-визуальную согласованность с помощью механизма двойной мостовой согласованности (Dual-Bridge Consistency): осведомленного о сцене JSON-сценария, служащего постоянной семантической основой, и динамически выделяемых визуальных референсных якорей на уровне сцены и кадра. Для подавления дрейфа перед синтезом видео мы вводим пакетную согласованность ключевых кадров, совместно генерируя несколько ключевых кадров в общем латентном контексте с помощью сеточной формулировки. Агент замкнутой верификации дополнительно проверяет идентичность, стабильность и соответствие, чтобы инициировать выборочную регенерацию. Эксперименты на SoapBench демонстрируют значительные улучшения по сравнению с коммерческими API генерации видео в долгосрочной согласованности и верности повествованию.

English

We study series-level cinematic remaking, a long-horizon video-to-video generation problem that localizes full episodes or films via stylization or actor replacement while strictly preserving narrative structure, motion choreography, and character identity across hundreds of shots. Existing video generation and editing pipelines often break down in this regime due to compounding identity drift, background mutation, and semantic erosion under large camera motions and viewpoint changes. We propose Soap2Soap, a multi-agent framework that enforces long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay serving as a persistent semantic backbone, and dynamically allocated visual reference anchors at both scene and shot levels. To suppress drift before video synthesis, we introduce batch keyframe consistency, jointly generating multiple keyframes in a shared latent context via a grid-based formulation. A closed-loop verification agent further audits identity, stability, and alignment to trigger selective regeneration. Experiments on SoapBench demonstrate strong improvements over commercial video generation APIs in long-term consistency and narrative fidelity.