ReCamDriving: Generazione di Video con Nuove Traiettorie Controllate da Telecamera Senza LiDAR
ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation
December 3, 2025
Autori: Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan
cs.AI
Abstract
Proponiamo ReCamDriving, un framework per la generazione di video su nuove traiettorie controllato puramente tramite visione artificiale e telecamere. Mentre i metodi basati sulla riparazione non riescono a ripristinare artefatti complessi e gli approcci basati su LiDAR si affidano a segnali sparsi e incompleti, ReCamDriving sfrutta rendering 3DGS densi e completi della scena per una guida geometrica esplicita, raggiungendo una generazione precisa e controllabile dalla telecamera. Per mitigare l'overfitting verso comportamenti di restauro quando condizionato dai rendering 3DGS, ReCamDriving adotta un paradigma di addestramento a due stadi: il primo stadio utilizza le pose della telecamera per un controllo approssimativo, mentre il secondo stadio incorpora i rendering 3DGS per una guida fine del punto di vista e geometrica. Inoltre, presentiamo una strategia di curatela dei dati basata su 3DGS per traiettorie incrociate per eliminare il divario train-test nei pattern di trasformazione della telecamera, consentendo una supervisione scalabile multi-traiettoria a partire da video monoculari. Basandoci su questa strategia, costruiamo il dataset ParaDrive, contenente oltre 110.000 coppie di video a traiettoria parallela. Esperimenti estensivi dimostrano che ReCamDriving raggiunge uno stato dell'arte nella controllabilità della telecamera e nella coerenza strutturale.
English
We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.