ChatPaper.aiChatPaper

OmniDirector: クロスペアデータを用いない汎用マルチショットカメラクローニング

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

June 11, 2026
著者: Jiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan
cs.AI

要旨

参照映像からのカメラモーションクローニングは、動画が直感的かつ精密な制御を提供するため、動画生成において重要なタスクである。既存手法は、マルチショット生成を扱えないパラメトリック表現を直接使用するか、データ不足に悩まされるクロスペアデータを合成することで、複雑なカメラモーションクローニングにおいて性能が低い。これらの問題に対処するため、我々はカメラをグリッドモーションビデオとしてエンコードする汎用的なカメラモーション表現を導入する。このカメラグリッドはカメラパラメータを視覚的に表現し、マルチショット動画生成のための多様な軌道の統合を支援する。これに基づき、我々はOmniDirectorを提案する。これは、キャラクター、アクション、カメラを調整し、マルチモーダル拡散トランスフォーマーに対するディレクターレベルの制御を提供するために、100万規模のカメラグリッド-動画ペアで訓練された統一フレームワークである。さらに、信号間の関係を理解しながらカメラモーションと視覚コンテンツを体系的に記述することで、異なる制御信号を調和的に統合する新しい階層的プロンプト拡張エージェントを設計する。広範な実験により、我々のフレームワークの優れた性能と卓越した制御性が実証される。プロジェクトページ: https://ymlinfeng.github.io/OmniDirector.github.io/
English
Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/