TrajectoryCrafter: 拡散モデルを用いた単眼動画のカメラ軌道リダイレクト
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
March 7, 2025
著者: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI
要旨
本論文では、単眼動画のカメラ軌道をリダイレクトする新規手法「TrajectoryCrafter」を提案する。決定論的な視点変換と確率的なコンテンツ生成を分離することで、ユーザー指定のカメラ軌道を精密に制御する。我々は、ポイントクラウドレンダリングとソース動画を条件として同時に統合する新規のデュアルストリーム条件付き動画拡散モデルを提案し、正確な視点変換と一貫性のある4Dコンテンツ生成を実現する。希少な多視点動画を利用する代わりに、ウェブ規模の単眼動画と静的な多視点データセットを組み合わせたハイブリッドトレーニングデータセットを、革新的な二重回投影戦略によってキュレーションし、多様なシーンにわたる堅牢な汎化能力を大幅に促進する。多視点および大規模単眼動画を用いた広範な評価により、本手法の優れた性能が実証された。
English
We present TrajectoryCrafter, a novel approach to redirect camera
trajectories for monocular videos. By disentangling deterministic view
transformations from stochastic content generation, our method achieves precise
control over user-specified camera trajectories. We propose a novel dual-stream
conditional video diffusion model that concurrently integrates point cloud
renders and source videos as conditions, ensuring accurate view transformations
and coherent 4D content generation. Instead of leveraging scarce multi-view
videos, we curate a hybrid training dataset combining web-scale monocular
videos with static multi-view datasets, by our innovative double-reprojection
strategy, significantly fostering robust generalization across diverse scenes.
Extensive evaluations on multi-view and large-scale monocular videos
demonstrate the superior performance of our method.Summary
AI-Generated Summary