ChatPaper.aiChatPaper

MultiShotMaster: 制御可能なマルチショット動画生成フレームワーク

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

December 2, 2025
著者: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia
cs.AI

要旨

現在の動画生成技術は単一ショットのクリップ生成には優れているものの、複数ショットによる物語性のある動画生成には課題を抱えています。これには、柔軟なショット配置、一貫したナラティブ、テキストプロンプトを超えた制御性が要求されます。これらの課題に取り組むため、我々は高度に制御可能な複数ショット動画生成フレームワーク「MultiShotMaster」を提案します。事前学習済み単一ショットモデルを拡張し、2つの新しいRoPE変種を統合しました。第一に、ショット遷移時に明示的な位相シフトを適用する「マルチショットナラティブRoPE」により、時間的な物語の順序を保ちつつ柔軟なショット配置を実現します。第二に、参照トークンとグラウンディング信号を組み込む「時空間位置認識RoPE」を設計し、時空間に基づいた参照注入を可能にします。さらにデータ不足を克服するため、複数ショット動画・キャプション・クロスショットグラウンディング信号・参照画像を抽出する自動データ注釈パイプラインを構築しました。本フレームワークは構造的な特性を活かし、テキスト駆動のショット間一貫性、モーション制御付きカスタム被写体、背景駆動のカスタムシーンを特徴とする複数ショット動画生成を実現します。ショット数と継続時間は柔軟に設定可能です。大規模な実験により、本フレームワークの優れた性能と卓越した制御性が実証されました。
English
Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.
PDF492December 4, 2025