ReCamDriving: Geração de Vídeo com Trajetória Nova Controlada por Câmera sem LiDAR

Resumo

Propomos o ReCamDriving, uma estrutura de geração de vídeos de nova trajetória controlada por câmera e baseada puramente em visão. Enquanto os métodos baseados em reparo falham em restaurar artefatos complexos e as abordagens baseadas em LiDAR dependem de pistas esparsas e incompletas, o ReCamDriving aproveita renderizações 3DGS densas e completas da cena para fornecer orientação geométrica explícita, alcançando uma geração precisa e controlável pela câmera. Para mitigar o sobreajuste a comportamentos de restauração quando condicionado por renderizações 3DGS, o ReCamDriving adota um paradigma de treinamento em dois estágios: o primeiro estágio utiliza poses da câmera para um controle grosseiro, enquanto o segundo estágio incorpora renderizações 3DGS para uma orientação refinada de perspectiva e geometria. Adicionalmente, apresentamos uma estratégia de curadoria de dados de trajetória cruzada baseada em 3DGS para eliminar a discrepância entre treino e teste nos padrões de transformação da câmera, permitindo supervisão escalável de múltiplas trajetórias a partir de vídeos monoculares. Com base nesta estratégia, construímos o conjunto de dados ParaDrive, contendo mais de 110 mil pares de vídeos de trajetória paralela. Experimentos extensivos demonstram que o ReCamDriving alcança a melhor capacidade de controle de câmera e consistência estrutural do estado da arte.

English

We propose ReCamDriving, a purely vision-based, camera-controlled novel-trajectory video generation framework. While repair-based methods fail to restore complex artifacts and LiDAR-based approaches rely on sparse and incomplete cues, ReCamDriving leverages dense and scene-complete 3DGS renderings for explicit geometric guidance, achieving precise camera-controllable generation. To mitigate overfitting to restoration behaviors when conditioned on 3DGS renderings, ReCamDriving adopts a two-stage training paradigm: the first stage uses camera poses for coarse control, while the second stage incorporates 3DGS renderings for fine-grained viewpoint and geometric guidance. Furthermore, we present a 3DGS-based cross-trajectory data curation strategy to eliminate the train-test gap in camera transformation patterns, enabling scalable multi-trajectory supervision from monocular videos. Based on this strategy, we construct the ParaDrive dataset, containing over 110K parallel-trajectory video pairs. Extensive experiments demonstrate that ReCamDriving achieves state-of-the-art camera controllability and structural consistency.

ReCamDriving: Geração de Vídeo com Trajetória Nova Controlada por Câmera sem LiDAR

ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

Resumo

Support