ChatPaper.aiChatPaper

MultiShotMaster : Un cadre de génération vidéo multi-prises contrôlable

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

December 2, 2025
papers.authors: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia
cs.AI

papers.abstract

Les techniques actuelles de génération vidéo excellent dans la production de plans uniques mais peinent à créer des vidéos narratives multi-plans, qui nécessitent un agencement flexible des plans, une cohérence narrative et une contrôlabilité dépassant les invites textuelles. Pour relever ces défis, nous proposons MultiShotMaster, un cadre pour la génération hautement contrôlable de vidéos multi-plans. Nous étendons un modèle préentraîné mono-plan en intégrant deux nouvelles variantes de RoPE. Premièrement, nous introduisons le RoPE Narratif Multi-Plans, qui applique un déphasage explicite aux transitions entre plans, permettant un agencement flexible tout en préservant l'ordre temporel narratif. Deuxièmement, nous concevons un RoPE Sensible aux Positions Spatiotemporelles pour incorporer des jetons de référence et des signaux d'ancrage, permettant l'injection de références ancrées spatiotemporellement. De plus, pour pallier la pénurie de données, nous établissons un pipeline d'annotation automatique pour extraire des vidéos multi-plans, des légendes, des signaux d'ancrage inter-plans et des images de référence. Notre cadre exploite les propriétés architecturales intrinsèques pour supporter la génération de vidéos multi-plans, avec une cohérence inter-plans pilotée par le texte, des sujets personnalisés avec contrôle du mouvement, et des scènes personnalisées pilotées par l'arrière-plan. Le nombre de plans et la durée sont flexibles. Des expériences approfondies démontrent les performances supérieures et la contrôlabilité exceptionnelle de notre cadre.
English
Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.
PDF492December 4, 2025