Soap2Soap : Remaking de vidéos cinématographiques longues via une collaboration multi-agents

Résumé

Nous étudions le remake cinématographique au niveau de la série, un problème de génération vidéo-à-vidéo à long horizon qui localise des épisodes ou films entiers par stylisation ou remplacement d'acteurs, tout en préservant strictement la structure narrative, la chorégraphie des mouvements et l'identité des personnages sur des centaines de plans. Les pipelines existants de génération et d'édition vidéo échouent souvent dans ce régime en raison d'une dérive identitaire cumulative, d'une mutation de l'arrière-plan et d'une érosion sémantique sous l'effet de grands mouvements de caméra et de changements de point de vue. Nous proposons Soap2Soap, un cadre multi-agents qui impose une cohérence langage-visuel à long terme via un mécanisme de cohérence à double pont : un scénario JSON sensible à la scène servant de colonne vertébrale sémantique persistante, et des ancres de référence visuelle allouées dynamiquement au niveau de la scène et du plan. Pour supprimer la dérive avant la synthèse vidéo, nous introduisons la cohérence par lots d'images clés, générant conjointement plusieurs images clés dans un contexte latent partagé via une formulation basée sur une grille. Un agent de vérification en boucle fermée audite en outre l'identité, la stabilité et l'alignement pour déclencher une régénération sélective. Les expériences sur SoapBench démontrent des améliorations significatives par rapport aux API commerciales de génération vidéo en termes de cohérence à long terme et de fidélité narrative.

English

We study series-level cinematic remaking, a long-horizon video-to-video generation problem that localizes full episodes or films via stylization or actor replacement while strictly preserving narrative structure, motion choreography, and character identity across hundreds of shots. Existing video generation and editing pipelines often break down in this regime due to compounding identity drift, background mutation, and semantic erosion under large camera motions and viewpoint changes. We propose Soap2Soap, a multi-agent framework that enforces long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay serving as a persistent semantic backbone, and dynamically allocated visual reference anchors at both scene and shot levels. To suppress drift before video synthesis, we introduce batch keyframe consistency, jointly generating multiple keyframes in a shared latent context via a grid-based formulation. A closed-loop verification agent further audits identity, stability, and alignment to trigger selective regeneration. Experiments on SoapBench demonstrate strong improvements over commercial video generation APIs in long-term consistency and narrative fidelity.