MultiShotMaster: Un Marco de Generación de Vídeo Multitoma Controlable
MultiShotMaster: A Controllable Multi-Shot Video Generation Framework
December 2, 2025
Autores: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia
cs.AI
Resumen
Las técnicas actuales de generación de vídeo sobresalen en la producción de clips de plano único, pero presentan dificultades para generar vídeos narrativos con múltiples planos, los cuales requieren una disposición flexible de tomas, coherencia narrativa y un control que va más allá de los prompts de texto. Para abordar estos desafíos, proponemos MultiShotMaster, un marco para la generación de vídeos multi-plano altamente controlable. Extendemos un modelo preentrenado de plano único mediante la integración de dos nuevas variantes de RoPE (Rotary Position Embedding). En primer lugar, introducimos "RoPE Narrativo Multi-Plano", que aplica un cambio de fase explícito en las transiciones entre planos, permitiendo una disposición flexible de las tomas mientras se preserva el orden narrativo temporal. En segundo lugar, diseñamos "RoPE con Conciencia de Posición Espaciotemporal" para incorporar tokens de referencia y señales de grounding, permitiendo la inyección de referencias con anclaje espaciotemporal. Adicionalmente, para superar la escasez de datos, establecemos un pipeline automatizado de anotación que extrae vídeos multi-plano, descripciones, señales de grounding entre planos e imágenes de referencia. Nuestro marco aprovecha las propiedades intrínsecas de la arquitectura para soportar la generación de vídeos multi-plano, caracterizándose por una consistencia inter-planos guiada por texto, sujetos personalizados con control de movimiento y escenas personalizadas basadas en el fondo. Tanto el número de planos como su duración son configurables de forma flexible. Experimentos exhaustivos demuestran el rendimiento superior y la excepcional capacidad de control de nuestro marco.
English
Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.