Sensor2Sensor: Conversão de Sensores Inter-Corporeidade para Condução Autônoma

Resumo

O treinamento e a validação robustos de Sistemas de Condução Autônoma (ADS) exigem conjuntos de dados massivos e diversificados. Dados proprietários coletados por frotas de Veículos Autônomos (AV), embora de alta fidelidade, são limitados em escala, diversidade de configurações de sensores, bem como cobertura geográfica e comportamental de cauda longa. Em contraste, dados do mundo real (in-the-wild) provenientes de fontes como câmeras de bordo oferecem enorme escala e diversidade, capturando cenários críticos de cauda longa e ambientes inéditos. No entanto, esses dados de vídeo não estruturados do mundo real são incompatíveis com ADS que esperam entradas de sensores multimodais estruturados para validação e treinamento. Para preencher essa lacuna de dados, propomos o Sensor2Sensor, um novo paradigma de modelagem generativa que traduz vídeos monoculares de câmeras de bordo do mundo real em um conjunto de sensores multimodais de alta fidelidade (logs de AV), composto por imagens de câmeras multivisuais e nuvens de pontos LiDAR. Um desafio central é a falta de dados de treinamento pareados. Abordamos isso convertendo logs reais de AV em vídeos no estilo de câmeras de bordo por meio da reconstrução com 4D Gaussian Splatting (4DGS) e renderização de novas vistas. O Sensor2Sensor então utiliza uma arquitetura de difusão para realizar a conversão generativa. Realizamos avaliações quantitativas abrangentes sobre a fidelidade e o realismo dos dados de sensores gerados. Demonstramos a utilidade prática do Sensor2Sensor ao converter filmagens desafiadoras da internet e de câmeras de bordo em formatos de dados multimodais realistas, desbloqueando ainda mais vastas fontes de dados externas para o desenvolvimento de AV.

English

Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.