ReCamDriving : Génération de vidéos à trajectoires nouvelles contrôlées par caméra sans LiDAR
ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation
December 3, 2025
papers.authors: Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan
cs.AI
papers.abstract
Nous proposons ReCamDriving, un cadre de génération de vidéos à nouvelles trajectoires purement basé sur la vision et contrôlé par caméra. Alors que les méthodes de réparation échouent à restaurer les artéfacts complexes et que les approches basées sur le LiDAR s'appuient sur des indices épars et incomplets, ReCamDriving exploite des rendus 3DGS denses et complets de la scène pour fournir un guidage géométrique explicite, permettant une génération précise et contrôlable par la caméra. Pour atténuer le surapprentissage aux comportements de restauration lors du conditionnement sur les rendus 3DGS, ReCamDriving adopte un paradigme d'entraînement en deux étapes : la première étape utilise les poses de caméra pour un contrôle grossier, tandis que la deuxième étape intègre les rendus 3DGS pour un guidage géométrique et de point de vue plus fin. De plus, nous présentons une stratégie de curation de données inter-trajectoires basée sur le 3DGS pour éliminer l'écart entre l'entraînement et les tests dans les patterns de transformation de caméra, permettant une supervision multi-trajectoires évolutive à partir de vidéos monoculaires. Sur la base de cette stratégie, nous constituons le jeu de données ParaDrive, contenant plus de 110 000 paires de vidéos à trajectoires parallèles. Des expériences approfondies démontrent que ReCamDriving atteint un état de l'art en matière de contrôlabilité de la caméra et de cohérence structurelle.
English
We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.