Soap2Soap: 다중 에이전트 협업을 통한 장편 영화적 비디오 리메이크
Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration
May 17, 2026
저자: Yiren Song, Huilin Zhong, Kevin Qinghong Lin, Haofan Wang, Mike Zheng Shou
cs.AI
초록
본 연구는 시리즈 수준의 영화적 리메이킹(series-level cinematic remaking)을 다룬다. 이는 전체 에피소드나 영화를 스타일화 또는 배우 교체를 통해 변환하는 장기적 비디오-대-비디오 생성 문제로, 수백 개의 샷에 걸쳐 서사 구조, 동작 안무, 캐릭터 정체성을 엄격히 보존해야 한다. 기존의 비디오 생성 및 편집 파이프라인은 큰 카메라 움직임과 시점 변화 하에서 누적되는 정체성 표류(identity drift), 배경 변이(background mutation), 의미론적 침식(semantic erosion)으로 인해 이러한 영역에서 종종 실패한다. 본 논문에서는 이중 브리지 일관성(Dual-Bridge Consistency) 메커니즘을 통해 장기적인 언어-시각 일관성을 강제하는 다중 에이전트 프레임워크인 Soap2Soap을 제안한다. 이 메커니즘은 지속적인 의미론적 백본 역할을 하는 장면 인식 JSON 각본과 장면 및 샷 수준에서 동적으로 할당되는 시각적 참조 앵커로 구성된다. 비디오 합성 전 드리프트를 억제하기 위해 배치 키프레임 일관성(batch keyframe consistency)을 도입하여 그리드 기반 공식을 통해 공유 잠재 컨텍스트에서 여러 키프레임을 공동 생성한다. 또한 폐쇄 루프 검증 에이전트가 정체성, 안정성, 정렬을 감사하여 선택적 재생성을 트리거한다. SoapBench 실험 결과, 장기적 일관성과 서사 충실도 측면에서 상용 비디오 생성 API 대비 강력한 성능 향상을 보여준다.
English
We study series-level cinematic remaking, a long-horizon video-to-video generation problem that localizes full episodes or films via stylization or actor replacement while strictly preserving narrative structure, motion choreography, and character identity across hundreds of shots. Existing video generation and editing pipelines often break down in this regime due to compounding identity drift, background mutation, and semantic erosion under large camera motions and viewpoint changes. We propose Soap2Soap, a multi-agent framework that enforces long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay serving as a persistent semantic backbone, and dynamically allocated visual reference anchors at both scene and shot levels. To suppress drift before video synthesis, we introduce batch keyframe consistency, jointly generating multiple keyframes in a shared latent context via a grid-based formulation. A closed-loop verification agent further audits identity, stability, and alignment to trigger selective regeneration. Experiments on SoapBench demonstrate strong improvements over commercial video generation APIs in long-term consistency and narrative fidelity.