ChatPaper.aiChatPaper

MultiShotMaster: Een Beheersbaar Multi-Shot Videogeneratie Framework

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

December 2, 2025
Auteurs: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia
cs.AI

Samenvatting

Huidige videogeneratietechnieken blinken uit in het maken van enkelvoudige clips, maar hebben moeite met het produceren van narratieve multi-shot video's. Deze vereisen flexibele shotopbouw, samenhangende narratieve structuur en bestuurbaarheid die verder gaat dan tekstprompts. Om deze uitdagingen aan te pakken, presenteren wij MultiShotMaster, een raamwerk voor hoogst bestuurbare multi-shot videogeneratie. We breiden een voorgetraind enkel-shot model uit door de integratie van twee nieuwe varianten van RoPE. Ten eerste introduceren we Multi-Shot Narrative RoPE, dat een expliciete faseverschuiving toepast bij shotovergangen. Dit maakt flexibele shotarrangementen mogelijk terwijl de temporele narratieve volgorde behouden blijft. Ten tweede ontwerpen we Spatiotemporal Position-Aware RoPE om referentietokens en grondingssignalen op te nemen, waardoor spatiotemporeel-gegrond referentie-injectie mogelijk wordt. Daarnaast richten we, om dataschaarste te overwinnen, een geautomatiseerde pijplijn voor data-annotatie op om multi-shot video's, bijschriften, cross-shot grondingssignalen en referentiebeelden te extraheren. Ons raamwerk benut de intrinsieke architecturale eigenschappen om multi-shot videogeneratie te ondersteunen, met kenmerken als tekstgestuurde consistentie tussen shots, gepersonaliseerde onderwerpen met bewegingscontrole en een achtergrond-gestuurde gepersonaliseerde scène. Zowel het aantal shots als de duur zijn flexibel configureerbaar. Uitgebreide experimenten tonen de superieure prestaties en uitstekende bestuurbaarheid van ons raamwerk aan.
English
Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.
PDF492December 4, 2025