Soap2Soap: Remake de Videos Cinematográficos Largos mediante Colaboración Multiagente

Resumen

Estudiamos la remezcla cinematográfica a nivel de serie, un problema de generación de video a video de horizonte largo que localiza episodios completos o películas mediante estilización o reemplazo de actores, preservando estrictamente la estructura narrativa, la coreografía de movimiento y la identidad del personaje a lo largo de cientos de tomas. Los flujos de trabajo existentes de generación y edición de video suelen fallar en este régimen debido a la deriva de identidad acumulativa, la mutación de fondo y la erosión semántica bajo grandes movimientos de cámara y cambios de punto de vista. Proponemos Soap2Soap, un marco multiagente que impone consistencia lingüístico-visual a largo plazo mediante un mecanismo de Consistencia de Puente Dual: un guion JSON consciente del contexto de escena que actúa como columna vertebral semántica persistente, y anclajes de referencia visual asignados dinámicamente tanto a nivel de escena como de toma. Para suprimir la deriva antes de la síntesis de video, introducimos la consistencia de fotogramas clave por lotes, generando conjuntamente múltiples fotogramas clave en un contexto latente compartido mediante una formulación basada en cuadrícula. Un agente de verificación en circuito cerrado audita además la identidad, la estabilidad y la alineación para activar la regeneración selectiva. Los experimentos en SoapBench demuestran mejoras significativas frente a las API comerciales de generación de video en consistencia a largo plazo y fidelidad narrativa.

English

We study series-level cinematic remaking, a long-horizon video-to-video generation problem that localizes full episodes or films via stylization or actor replacement while strictly preserving narrative structure, motion choreography, and character identity across hundreds of shots. Existing video generation and editing pipelines often break down in this regime due to compounding identity drift, background mutation, and semantic erosion under large camera motions and viewpoint changes. We propose Soap2Soap, a multi-agent framework that enforces long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay serving as a persistent semantic backbone, and dynamically allocated visual reference anchors at both scene and shot levels. To suppress drift before video synthesis, we introduce batch keyframe consistency, jointly generating multiple keyframes in a shared latent context via a grid-based formulation. A closed-loop verification agent further audits identity, stability, and alignment to trigger selective regeneration. Experiments on SoapBench demonstrate strong improvements over commercial video generation APIs in long-term consistency and narrative fidelity.