ChatPaper.aiChatPaper

ReCamDriving: LiDAR-freie, kameragesteuerte Erzeugung von Videos mit neuartigen Trajektorien

ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

December 3, 2025
papers.authors: Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan
cs.AI

papers.abstract

Wir stellen ReCamDriving vor, ein rein auf Bildverarbeitung basierendes, kameragesteuertes Framework zur Erzeugung von Videos mit neuen Trajektorien. Während reparierbasierten Methoden die Wiederherstellung komplexer Artefakte misslingt und LiDAR-basierte Ansätze auf spärliche und unvollständige Hinweise angewiesen sind, nutzt ReCamDriving dichte und szenenkomplette 3DGS-Renderings für explizite geometrische Führung und erreicht so eine präzise kamerasteuerbare Generierung. Um einer Überanpassung an Restaurierungsverhalten bei Konditionierung auf 3DGS-Renderings entgegenzuwirken, verwendet ReCamDriving ein zweistufiges Trainingsparadigma: Die erste Stufe nutzt Kameraposen zur groben Steuerung, während die zweite Stufe 3DGS-Renderings für eine fein granulierte Blickwinkel- und geometrische Führung einbezieht. Darüber hinaus präsentieren wir eine 3DGS-basierte Datenkuratierungsstrategie für Trajektorienübergänge, um die Trainings-Test-Lücke in Kameratransformationsmustern zu beseitigen und skalierbare Multi-Trajektorie-Aufsicht aus monokularen Videos zu ermöglichen. Auf Basis dieser Strategie erstellen wir den ParaDrive-Datensatz, der über 110.000 parallele Trajektorien-Videopaare enthält. Umfangreiche Experimente belegen, dass ReCamDriving state-of-the-art Kamerasteuerbarkeit und strukturelle Konsistenz erreicht.
English
We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.
PDF72December 10, 2025