ReCamDriving: Генерация видео с новыми траекториями, управляемыми камерой, без использования LiDAR
ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation
December 3, 2025
Авторы: Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan
cs.AI
Аннотация
Мы представляем ReCamDriving — чисто визуальную систему генерации видео по новым траекториям с управлением камерой. В то время как ремонтно-ориентированные методы не справляются с восстановлением сложных артефактов, а подходы на основе LiDAR полагаются на разреженные и неполные данные, ReCamDriving использует плотные и сценарно-полные рендеры 3DGS для явного геометрического руководства, достигая точного управления камерой. Чтобы смягчить переобучение на поведение восстановления при условии использования рендеров 3DGS, ReCamDriving применяет двухэтапную парадигму обучения: на первом этапе используются позы камеры для грубого управления, а на втором этапе включаются рендеры 3GDS для детального руководства по точке обзора и геометрии. Кроме того, мы представляем стратегию курации данных на основе 3DGS для кросс-траекторного устранения разрыва между обучением и тестированием в паттернах трансформации камеры, обеспечивая масштабируемый контроль по множеству траекторий на основе моноскопических видео. Основываясь на этой стратегии, мы создали набор данных ParaDrive, содержащий более 110 тысяч пар видео с параллельными траекториями. Многочисленные эксперименты демонстрируют, что ReCamDriving достигает передового уровня управляемости камерой и структурной согласованности.
English
We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.