Soap2Soap: Neuerstellung langer kinematografischer Videos durch Multi-Agenten-Kollaboration

Zusammenfassung

Wir untersuchen die filmische Wiederaufnahme auf Serienebene, ein langfristiges Video-zu-Video-Generierungsproblem, das ganze Episoden oder Filme durch Stilisierung oder Schauspieleraustausch lokalisiert, während die Erzählstruktur, die Bewegungschoreografie und die Figurenidentität über Hunderte von Einstellungen hinweg strikt beibehalten werden. Bestehende Video-Generierungs- und -Bearbeitungspipelines versagen in diesem Bereich oft aufgrund von sich verstärkender Identitätsdrift, Hintergrundmutation und semantischer Erosion bei großen Kamerabewegungen und Blickwinkelwechseln. Wir schlagen Soap2Soap vor, ein Multi-Agenten-Framework, das durch einen Dual-Bridge-Konsistenzmechanismus eine langfristige sprachlich-visuelle Konsistenz erzwingt: ein szenenbewusstes JSON-Drehbuch als persistentes semantisches Rückgrat sowie dynamisch zugewiesene visuelle Referenzanker auf Szenen- und Einstellungsebene. Um Drift vor der Videosynthese zu unterdrücken, führen wir die Batch-Keyframe-Konsistenz ein, bei der mehrere Keyframes in einem gemeinsamen latenten Kontext mittels einer gitterbasierten Formulierung gemeinsam generiert werden. Ein geschlossener Rückkopplungs-Verifikationsagent prüft zudem Identität, Stabilität und Übereinstimmung, um eine selektive Neugenerierung auszulösen. Experimente auf SoapBench zeigen deutliche Verbesserungen gegenüber kommerziellen Video-Generierungs-APIs hinsichtlich langfristiger Konsistenz und narrativer Treue.

English

We study series-level cinematic remaking, a long-horizon video-to-video generation problem that localizes full episodes or films via stylization or actor replacement while strictly preserving narrative structure, motion choreography, and character identity across hundreds of shots. Existing video generation and editing pipelines often break down in this regime due to compounding identity drift, background mutation, and semantic erosion under large camera motions and viewpoint changes. We propose Soap2Soap, a multi-agent framework that enforces long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay serving as a persistent semantic backbone, and dynamically allocated visual reference anchors at both scene and shot levels. To suppress drift before video synthesis, we introduce batch keyframe consistency, jointly generating multiple keyframes in a shared latent context via a grid-based formulation. A closed-loop verification agent further audits identity, stability, and alignment to trigger selective regeneration. Experiments on SoapBench demonstrate strong improvements over commercial video generation APIs in long-term consistency and narrative fidelity.