ReCamDriving: LiDAR-vrije generatie van video's met nieuwe trajecten bestuurd door camera's
ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation
December 3, 2025
Auteurs: Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan
cs.AI
Samenvatting
Wij presenteren ReCamDriving, een puur visueel, op camera's gebaseerd raamwerk voor het genereren van video's met nieuwe trajecten. Terwijl op reparatie gebaseerde methoden falen in het herstellen van complexe artefacten en LiDAR-benaderingen afhankelijk zijn van schaarse en incomplete aanwijzingen, maakt ReCamDriving gebruik van dichte en scenespecifieke 3DGS-renderingen voor expliciete geometrische begeleiding, waardoor precieze, camerabestuurbare generatie wordt bereikt. Om overfitting aan restauratiegedrag te voorkomen wanneer wordt uitgegaan van 3DGS-renderingen, hanteert ReCamDriving een tweefasig trainingsparadigma: de eerste fase gebruikt cameraposities voor grove controle, terwijl de tweede fase 3DGS-renderingen integreert voor fijnmazige gezichtspunt- en geometrische begeleiding. Verder presenteren we een op 3DGS gebaseerde datacuratiestrategie over trajecten heen om de kloof tussen training en testen in cameratransformatiepatronen te elimineren, waardoor schaalbare supervisie met meerdere trajecten vanuit monovideo's mogelijk wordt. Op basis van deze strategie construeren we de ParaDrive-dataset, die meer dan 110.000 videoparen met parallelle trajecten bevat. Uitgebreide experimenten tonen aan dat ReCamDriving state-of-the-art camerabestuurbaarheid en structurele consistentie bereikt.
English
We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.