ChatPaper.aiChatPaper

ReCamDriving:LiDAR不要のカメラ制御による新規軌道ビデオ生成

ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

December 3, 2025
著者: Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan
cs.AI

要旨

我々はReCamDrivingを提案する。これは純粋に視覚ベースの、カメラ制御による新規軌道のビデオ生成フレームワークである。修復ベースの手法は複雑なアーティファクトの復元に失敗し、LiDARベースの手法は疎で不完全な手がかりに依存するのに対し、ReCamDrivingは密でシーン全体を網羅する3DGSレンダリングを活用し、明示的な幾何学的ガイダンスを実現することで、精密なカメラ制御可能な生成を実現する。3DGSレンダリングを条件とした際の修復行動への過適合を緩和するため、ReCamDrivingは2段階の訓練パラダイムを採用する。第1段階ではカメラポーズを用いた大まかな制御を行い、第2段階では3DGSレンダリングを組み込んで細粒度の視点と幾何学的ガイダンスを実現する。さらに我々は、カメラ変換パターンにおける訓練-テスト間のギャップを解消するため、3DGSに基づく軌道横断的データキュレーション戦略を提示する。これにより、単眼ビデオからのスケーラブルな多軌道監督が可能となる。この戦略に基づき、11万以上の並列軌道ビデオペアを含むParaDriveデータセットを構築した。大規模な実験により、ReCamDrivingが最先端のカメラ制御性と構造的一貫性を達成することが実証された。
English
We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.
PDF72December 10, 2025