OmniTransfer:時空間ビデオ転送のためのオールインワンフレームワーク
OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer
January 20, 2026
著者: Pengze Zhang, Yanze Wu, Mengtian Li, Xu Bai, Songtao Zhao, Fulong Ye, Chong Mou, Xinghui Li, Zhuowei Chen, Qian He, Mingyuan Gao
cs.AI
要旨
動画は画像やテキストよりも豊富な情報を伝達し、空間的・時間的ダイナミクスを同時に捕捉する。しかし、既存の動画カスタマイズ手法の多くは参照画像やタスク固有の時間的事前情報に依存しており、動画が本来持つ豊富な時空間情報を十分に活用できていない。これにより、動画生成における柔軟性と一般化性能が制限されている。こうした課題を解決するため、我々は時空間的動画転送の統一フレームワークであるOmniTransferを提案する。本手法は、フレーム間のマルチビュー情報を活用して外観一貫性を高め、時間的手がかりを利用して微細な時間制御を可能にする。様々な動画転送タスクを統一するため、OmniTransferは3つの核心的な設計を組み込んでいる:参照動画情報を適応的に活用して時間的整列や外観一貫性を改善する「タスク認識位置バイアス」、参照ブランチと目標ブランチを分離することで正確な参照転送と効率化を両立する「参照分離型因果学習」、マルチモーダル意味情報を活用して異なるタスクを動的に識別・処理する「タスク適応型マルチモーダル調整」である。大規模な実験により、OmniTransferが外観転送(IDとスタイル)および時間的転送(カメラ動作と映像効果)において既存手法を凌駕し、ポーズ誘導手法を使用せずに動作転送ではポーズ誘導手法と同等の性能を達成することを実証した。これにより、柔軟で高精細な動画生成の新たなパラダイムを確立する。
English
Videos convey richer information than images or text, capturing both spatial and temporal dynamics. However, most existing video customization methods rely on reference images or task-specific temporal priors, failing to fully exploit the rich spatio-temporal information inherent in videos, thereby limiting flexibility and generalization in video generation. To address these limitations, we propose OmniTransfer, a unified framework for spatio-temporal video transfer. It leverages multi-view information across frames to enhance appearance consistency and exploits temporal cues to enable fine-grained temporal control. To unify various video transfer tasks, OmniTransfer incorporates three key designs: Task-aware Positional Bias that adaptively leverages reference video information to improve temporal alignment or appearance consistency; Reference-decoupled Causal Learning separating reference and target branches to enable precise reference transfer while improving efficiency; and Task-adaptive Multimodal Alignment using multimodal semantic guidance to dynamically distinguish and tackle different tasks. Extensive experiments show that OmniTransfer outperforms existing methods in appearance (ID and style) and temporal transfer (camera movement and video effects), while matching pose-guided methods in motion transfer without using pose, establishing a new paradigm for flexible, high-fidelity video generation.