ChatPaper.aiChatPaper

MultiShotMaster: Ein steuerbares Multi-Shot-Videogenerierungsframework

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

December 2, 2025
papers.authors: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia
cs.AI

papers.abstract

Aktuelle Videogenerierungstechniken sind für Einzelaufnahmen hervorragend geeignet, haben jedoch Schwierigkeiten bei der Erzählung mehrerer Einstellungen, die flexible Bildgestaltung, kohärente Narration und Steuerbarkeit über Textprompts hinaus erfordern. Um diese Herausforderungen zu bewältigen, stellen wir MultiShotMaster vor, ein Framework für hochgradig steuerbare Mehrschuss-Videogenerierung. Wir erweitern ein vortrainiertes Einzelschuss-Modell durch die Integration zweier neuartiger RoPE-Varianten. Erstens führen wir Multi-Shot Narrative RoPE ein, das einen expliziten Phasenversatz bei Szenenübergängen anwendet, um flexible Bildgestaltung bei gleichzeitiger Wahrung der zeitlichen Erzählreihenfolge zu ermöglichen. Zweitens entwerfen wir Spatiotemporal Position-Aware RoPE, um Referenztoken und Verankerungssignale einzubinden, was eine raumzeitlich verankerte Referenzinjektion ermöglicht. Zusätzlich etablieren wir zur Überwindung der Datenknappheit eine automatisierte Datenannotations-Pipeline zur Extraktion von Mehrschuss-Videos, Beschreibungen, übergreifenden Verankerungssignalen und Referenzbildern. Unser Framework nutzt die intrinsischen Architektureigenschaften zur Unterstützung der Mehrschuss-Videogenerierung mit textgesteuerter Konsistenz zwischen Einstellungen, benutzerdefinierten Subjekten mit Bewegungssteuerung und hintergrundgesteuerten benutzerdefinierten Szenen. Sowohl die Anzahl der Einstellungen als auch deren Dauer sind flexibel konfigurierbar. Umfangreiche Experimente belegen die überlegene Leistung und herausragende Steuerbarkeit unseres Frameworks.
English
Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.
PDF492December 4, 2025