ChatPaper.aiChatPaper

MultiShotMaster: Un Framework Controllabile per la Generazione di Video Multi-Shot

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

December 2, 2025
Autori: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia
cs.AI

Abstract

Le attuali tecniche di generazione video eccellono nella creazione di clip singole, ma faticano a produrre video narrativi multi-inquadratura, che richiedono una disposizione flessibile delle inquadrature, una narrazione coerente e una controllabilità che va oltre i prompt testuali. Per affrontare queste sfide, proponiamo MultiShotMaster, un framework per la generazione di video multi-inquadratura altamente controllabile. Estendiamo un modello preaddestrato per video singoli integrando due nuove varianti di RoPE. In primo luogo, introduciamo la RoPE Narrativa Multi-Inquadratura, che applica uno sfasamento di fase esplicito nelle transizioni tra le inquadrature, consentendo una disposizione flessibile delle stesse preservando l'ordine narrativo temporale. In secondo luogo, progettiamo la RoPE Consapevole della Posizione Spazio-Temporale per incorporare token di riferimento e segnali di grounding, abilitando l'iniezione di riferimenti ancorati spaziotemporalmente. Inoltre, per ovviare alla scarsità di dati, abbiamo stabilito una pipeline automatizzata di annotazione dei dati per estrarre video multi-inquadratura, didascalie, segnali di grounding trans-inquadratura e immagini di riferimento. Il nostro framework sfrutta le proprietà architetturali intrinseche per supportare la generazione di video multi-inquadratura, caratterizzata da coerenza inter-inquadratura guidata dal testo, soggetti personalizzati con controllo del movimento e scene personalizzate guidate dallo sfondo. Sia il numero di inquadrature che la loro durata sono configurabili in modo flessibile. Esperimenti estensivi dimostrano le prestazioni superiori e l'eccezionale controllabilità del nostro framework.
English
Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.
PDF492December 4, 2025