ChatPaper.aiChatPaper

ReCamDriving: Generación de Vídeo de Trayectorias Novedosas Controladas por Cámara sin LiDAR

ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

December 3, 2025
Autores: Yaokun Li, Shuaixian Wang, Mantang Guo, Jiehui Huang, Taojun Ding, Mu Hu, Kaixuan Wang, Shaojie Shen, Guang Tan
cs.AI

Resumen

Proponemos ReCamDriving, un marco de generación de vídeo con trayectorias novedosas controlado únicamente por cámaras y basado en visión. Mientras que los métodos basados en reparación fallan al restaurar artefactos complejos y los enfoques basados en LiDAR dependen de pistas dispersas e incompletas, ReCamDriving aprovecha las representaciones densas y completas de la escena de 3DGS para una guía geométrica explícita, logrando una generación precisa controlable por cámara. Para mitigar el sobreajuste a comportamientos de restauración cuando se condiciona con representaciones 3DGS, ReCamDriving adopta un paradigma de entrenamiento en dos etapas: la primera etapa utiliza poses de cámara para un control aproximado, mientras que la segunda etapa incorpora representaciones 3DGS para una guía granular de geometría y punto de vista. Además, presentamos una estrategia de curación de datos entre trayectorias basada en 3DGS para eliminar la brecha entrenamiento-prueba en los patrones de transformación de cámara, permitiendo una supervisión escalable de múltiples trayectorias a partir de vídeos monoculares. Basándonos en esta estrategia, construimos el conjunto de datos ParaDrive, que contiene más de 110K pares de vídeos de trayectorias paralelas. Experimentos exhaustivos demuestran que ReCamDriving alcanza una controlabilidad de cámara y una consistencia estructural state-of-the-art.
English
We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.
PDF72December 10, 2025