Soap2Soap: Lange Cinematische Video-herbewerking via Multi-Agent Samenwerking

Samenvatting

We bestuderen cinematische hermontage op serieniveau, een video-naar-video-generatieprobleem over een lange horizon dat volledige afleveringen of films lokaliseert via stileren of acteursvervanging, terwijl het narratieve structuur, bewegingschoreografie en personage-identiteit strikt behoudt over honderden shots. Bestaande video-generatie- en bewerkingspijplijnen falen vaak in dit regime door cumulatieve identiteitsdrift, achtergrondmutatie en semantische erosie bij grote camerabewegingen en gezichtspuntveranderingen. Wij stellen Soap2Soap voor, een multi-agent framework dat langetermijn taal-visuele consistentie afdwingt via een Dual-Bridge Consistentiemechanisme: een scènebewust JSON-scenario als aanhoudende semantische ruggengraat, en dynamisch toegewezen visuele referentieankers op zowel scène- als shotniveau. Om drift te onderdrukken vóór videosynthese introduceren we batch keyframe-consistentie, waarbij we meerdere keyframes genereren in een gedeelde latente context via een grid-gebaseerde formulering. Een gesloten-lus verificatieagent auditeert verder identiteit, stabiliteit en afstemming om selectieve regeneratie te activeren. Experimenten op SoapBench tonen sterke verbeteringen ten opzichte van commerciële video-generatie-API's in langetermijnconsistentie en narratieve getrouwheid.

English

We study series-level cinematic remaking, a long-horizon video-to-video generation problem that localizes full episodes or films via stylization or actor replacement while strictly preserving narrative structure, motion choreography, and character identity across hundreds of shots. Existing video generation and editing pipelines often break down in this regime due to compounding identity drift, background mutation, and semantic erosion under large camera motions and viewpoint changes. We propose Soap2Soap, a multi-agent framework that enforces long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay serving as a persistent semantic backbone, and dynamically allocated visual reference anchors at both scene and shot levels. To suppress drift before video synthesis, we introduce batch keyframe consistency, jointly generating multiple keyframes in a shared latent context via a grid-based formulation. A closed-loop verification agent further audits identity, stability, and alignment to trigger selective regeneration. Experiments on SoapBench demonstrate strong improvements over commercial video generation APIs in long-term consistency and narrative fidelity.