ChatPaper.aiChatPaper

MultiShotMaster: Управляемая система генерации многокадрового видео

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

December 2, 2025
Авторы: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia
cs.AI

Аннотация

Современные методы генерации видео преуспевают в создании однокадровых клипов, но испытывают трудности с генерацией повествовательных многокадровых видео, которые требуют гибкого расположения кадров, связного повествования и управляемости, выходящей за рамки текстовых промптов. Для решения этих задач мы предлагаем MultiShotMaster — фреймворк для высококонтролируемой генерации многокадрового видео. Мы расширяем предобученную однокадровую модель, интегрируя два новых варианта RoPE. Во-первых, мы представляем Multi-Shot Narrative RoPE, который применяет явный фазовый сдвиг на переходах между кадрами, обеспечивая гибкое расположение кадров при сохранении временного повествовательного порядка. Во-вторых, мы разрабатываем Spatiotemporal Position-Aware RoPE для включения референсных токенов и сигналов привязки, что позволяет осуществлять пространственно-временную инъекцию референсов. Кроме того, для преодоления нехватки данных мы создаем автоматизированный пайплайн аннотирования данных для извлечения многокадровых видео, описаний, межкадровых сигналов привязки и референсных изображений. Наш фреймворк использует внутренние архитектурные свойства для поддержки генерации многокадрового видео, обеспечивая текстовую согласованность между кадрами, кастомизированный объект с контролем движения и кастомизированную сцену на основе фона. Количество кадров и их продолжительность гибко настраиваются. Многочисленные эксперименты демонстрируют превосходную производительность и выдающуюся управляемость нашего фреймворка.
English
Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.
PDF492December 4, 2025