Soap2Soap: Recriação de Vídeo Cinematográfico Longo via Colaboração Multiagente

Resumo

Estudamos a refilmagem cinematográfica em nível de série, um problema de geração de vídeo-para-vídeo de longo horizonte que localiza episódios ou filmes completos por meio de estilização ou substituição de atores, preservando estritamente a estrutura narrativa, a coreografia de movimento e a identidade do personagem em centenas de tomadas. Pipelines existentes de geração e edição de vídeos frequentemente falham nesse regime devido à deriva de identidade cumulativa, mutação de fundo e erosão semântica sob grandes movimentos de câmera e mudanças de ponto de vista. Propomos o Soap2Soap, um framework multiagente que impõe consistência linguístico-visual de longo prazo por meio de um mecanismo de Consistência de Ponte Dupla: um roteiro JSON ciente de cena servindo como espinha dorsal semântica persistente, e âncoras de referência visual alocadas dinamicamente nos níveis de cena e tomada. Para suprimir a deriva antes da síntese de vídeo, introduzimos a consistência de keyframes em lote, gerando conjuntamente múltiplos keyframes em um contexto latente compartilhado por meio de uma formulação baseada em grade. Um agente de verificação em malha fechada audita ainda identidade, estabilidade e alinhamento para acionar regeneração seletiva. Experimentos no SoapBench demonstram fortes melhorias em relação às APIs comerciais de geração de vídeo em consistência de longo prazo e fidelidade narrativa.

English

We study series-level cinematic remaking, a long-horizon video-to-video generation problem that localizes full episodes or films via stylization or actor replacement while strictly preserving narrative structure, motion choreography, and character identity across hundreds of shots. Existing video generation and editing pipelines often break down in this regime due to compounding identity drift, background mutation, and semantic erosion under large camera motions and viewpoint changes. We propose Soap2Soap, a multi-agent framework that enforces long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay serving as a persistent semantic backbone, and dynamically allocated visual reference anchors at both scene and shot levels. To suppress drift before video synthesis, we introduce batch keyframe consistency, jointly generating multiple keyframes in a shared latent context via a grid-based formulation. A closed-loop verification agent further audits identity, stability, and alignment to trigger selective regeneration. Experiments on SoapBench demonstrate strong improvements over commercial video generation APIs in long-term consistency and narrative fidelity.