MultiShotMaster: 제어 가능한 다중 샷 비디오 생성 프레임워크
MultiShotMaster: A Controllable Multi-Shot Video Generation Framework
December 2, 2025
저자: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia
cs.AI
초록
현재 비디오 생성 기술은 단일 샷 클립에서는 뛰어난 성능을 보이지만, 유연한 샷 배치, 일관된 내러티브, 텍스트 프롬프트를 넘어선 제어 가능성 등이 요구되는 서사적 다중 샷 비디오 생성에는 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 우리는 높은 제어 가능성을 지닌 다중 샷 비디오 생성 프레임워크인 MultiShotMaster를 제안합니다. 사전 학습된 단일 샷 모델을 두 가지 새로운 RoPE 변형을 통합하여 확장합니다. 첫째, 샷 전환 시 명시적 위상 변화를 적용하여 시간적 서사 순서를 유지하면서 유연한 샷 배치를 가능하게 하는 Multi-Shot Narrative RoPE를 도입합니다. 둘째, 참조 토큰과 접지 신호를 통합하여 시공간적 접지 참조 주입을 가능하게 하는 Spatiotemporal Position-Aware RoPE를 설계합니다. 또한 데이터 부족 문제를 해결하기 위해 다중 샷 비디오, 캡션, 샷 간 접지 신호 및 참조 이미지를 추출하는 자동화된 데이터 주석 파이프라인을 구축했습니다. 우리의 프레임워크는 내재된 아키텍처 특성을 활용하여 텍스트 기반 샷 간 일관성, 동작 제어가 가능한 맞춤형 주체, 배경 기반 맞춤형 장면을 특징으로 하는 다중 샷 비디오 생성을 지원합니다. 샷 수와 지속 시간 모두 유연하게 구성 가능합니다. 광범위한 실험을 통해 우리 프레임워크의 우수한 성능과 뛰어난 제어 가능성을 입증합니다.
English
Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.