ChatPaper.aiChatPaper

Track2View: ペア3D点トラックを用いた4D一貫性のあるカメラ制御動画生成

Track2View: 4D-Consistent Camera-Controlled Video Generation via Paired 3D Point Tracks

June 14, 2026
著者: Feng Qiao, Zhaochong An, Zhexiao Xiong, Serge Belongie, Nathan Jacobs
cs.AI

要旨

既存の動画を新たなカメラ視点から再レンダリングするには、各フレームにわたってシーンの外観とダイナミクスを保持しつつ、規定のカメラ軌道に沿った出力を生成する必要がある。既存手法は、フレーム単位のポーズ埋め込み、ノイズを含む点群レンダリング、あるいは暗黙的な学習対応に依存しており、ソース画素とターゲット画素との間に明示的かつ時間的に連続した対応関係を提供するものはない。本稿では、ペア化された3D点トラック、すなわちシーン点のソースおよびターゲットカメラ視点への投影からなる疎な軌跡に基づいて、ビデオ拡散トランスフォーマーを条件付けするTrack2Viewを提案する。これらのトラックは、構成上時間的に連続した明示的な時空間対応を提供し、どのようなコンテンツがいつどこに現れるべきかを符号化する。Track2Viewの中核は、パラメータフリーな幾何学的操作と学習された時間的集約を通じて、ソース視点からターゲット視点へ視覚的文脈を転送するデュアルビュートラック条件付け器であり、特定の動作を記憶することなく任意のカメラ軌道への一般化を保証する。さらに、時間的に連結されたマルチカメラ視点ペア上で3D点トラッカーを実行することにより、1対1のトラック対応を抽出するデータキュレーションパイプラインを導入する。静的および動的シーンを含む400動画のベンチマークにおいて、Track2Viewは視覚品質、視点同期、カメラ精度のすべてで最先端の成果を達成し、主要ベースラインと比較して回転誤差を30-65%、並進誤差を61-72%削減する。プロジェクトページはこちらのURLで公開されている:https://qjizhi.github.io/track2view
English
Re-rendering an existing video from a novel camera viewpoint requires the output to follow the prescribed camera trajectory while preserving the appearance and dynamics of the original scene across every frame. Existing methods rely on per-frame pose embeddings, noisy point-cloud renderings, or implicit learned correspondences, none of which provides an explicit, temporally continuous link between source and target pixels. We propose Track2View, which conditions a video diffusion transformer on paired 3D point tracks: sparse trajectories of scene points projected into both the source and target camera views. These tracks provide explicit spatiotemporal correspondences that are temporally continuous by construction, encoding what content should appear where and when. At the core of Track2View is a dual-view track conditioner that transfers visual context from source to target view through parameter-free geometric operations and learned temporal aggregation, ensuring generalization to arbitrary camera trajectories without memorizing specific motions. We further introduce a data curation pipeline that extracts one-to-one track correspondences by running a 3D point tracker on temporally concatenated multi-camera view pairs. On a 400-video benchmark spanning static and dynamic scenes, Track2View achieves state-of-the-art results across visual quality, view synchronization, and camera accuracy, reducing rotation error by 30-65% and translation error by 61-72% relative to leading baselines. Project page is available at this https URL: https://qjizhi.github.io/track2view