カメラ制御によるビデオ生成のためのロバストな条件付けとしての無限ホモグラフィ
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation
December 18, 2025
著者: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo
cs.AI
要旨
動画拡散モデルの最近の進歩により、動的シーンにおけるカメラ制御された新規視点動画生成への関心が高まっており、制作者にポストプロダクションにおける映画的なカメラ制御機能を提供することを目指している。カメラ制御動画生成における主要な課題は、指定されたカメラポーズへの忠実性を確保しつつ、視点の一貫性を維持し、限られた観測から遮蔽されたジオメトリを推論することである。これに対処するため、既存手法では、軌道-動画ペアデータセットで軌道条件付き動画生成モデルを学習するか、入力動画から深度を推定して目標軌道に沿って再投影し、未投影領域を生成する。しかし、既存手法はカメラポーズに忠実で高品質な動画を生成するのに苦戦している。主な理由は二つある:(1) 再投影ベースの手法は不正確な深度推定による誤差の影響を非常に受けやすい;(2) 既存データセットにおけるカメラ軌道の多様性の不足が学習モデルの性能を制限している。これらの限界を解決するため、我々は深度推定を必要とせず、高いポーズ忠実性を持つカメラ制御動画間生成フレームワーク「InfCam」を提案する。本フレームワークは二つの主要コンポーネントを統合している:(1) 無限遠ホモグラフィワープ:3Dカメラ回転を動画拡散モデルの2D潜在空間内で直接符号化する。このノイズのない回転情報を条件付けとして、残差パララックス項をエンドツーエンド学習で予測し、高いカメラポーズ忠実性を実現する;(2) 既存の合成多視点データセットを多様な軌道と焦点距離を持つシーケンスに変換するデータ拡張パイプライン。実験結果から、InfCamはカメラポーズ精度と視覚的忠実性においてベースライン手法を上回り、合成データから実世界データへよく汎化することが示された。プロジェクトページ:https://emjay73.github.io/InfCam/
English
Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/