ReCamDriving: LiDAR 없이 카메라로 제어하는 새로운 경로 비디오 생성
ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation
December 3, 2025
저자: Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan
cs.AI
초록
본 논문에서는 순수 영상 기반의 카메라 제어 신규 궤적 동영상 생성 프레임워크인 ReCamDriving을 제안한다. 복원 기반 방법론은 복잡한 아티팩트를 복원하지 못하고 LiDAR 기반 접근법은 희소하고 불완전한 단서에 의존하는 반면, ReCamDriving은 조밀하고 장면 전체를 포함하는 3DGS 렌더링을 활용하여 명시적인 기하학적 guidance를 제공함으로써 정밀한 카메라 제어 생성을 달성한다. 3DGS 렌더링을 조건으로 사용할 때 복원 동작에 과적합되는 문제를 완화하기 위해 ReCamDriving은 2단계 학습 패러다임을 채택한다. 1단계에서는 카메라 포즈를 사용한 coarse 제어를, 2단계에서는 3DGS 렌더링을 통합한 세밀한 시점 및 기하학적 guidance를 수행한다. 더 나아가, 카메라 변환 패턴에서 발생하는 학습-테스트 간극을 제거하기 위해 3DGS 기반 교차 궤적 데이터 큐레이션 전략을 제시하여 단안 영상으로부터 확장 가능한 다중 궤적 supervision을 가능하게 한다. 이 전략을 바탕으로 11만 개 이상의 병렬 궤적 동영상 쌍을 포함하는 ParaDrive 데이터셋을 구축하였다. 폭넓은 실험을 통해 ReCamDriving이 최첨단 수준의 카메라 제어성과 구조적 일관성을 달성함을 입증한다.
English
We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.