Sensor2Sensor: Conversión de Sensores entre Distintos Cuerpos para la Conducción Autónoma

Resumen

El entrenamiento y la validación robustos de los Sistemas de Conducción Autónoma (ADS) requieren conjuntos de datos masivos y diversos. Los datos propietarios recopilados por flotas de Vehículos Autónomos (AV), aunque de alta fidelidad, son limitados en escala, diversidad de configuraciones de sensores, así como en cobertura geográfica y de comportamientos de cola larga. En contraste, los datos silvestres provenientes de fuentes como cámaras de tablero ofrecen una escala y diversidad inmensas, capturando escenarios críticos de cola larga y entornos novedosos. Sin embargo, estos datos de video no estructurados y silvestres son incompatibles con los ADS, que requieren entradas de sensores multimodales estructuradas para su validación y entrenamiento. Para cerrar esta brecha de datos, proponemos Sensor2Sensor, un novedoso paradigma de modelado generativo que traduce videos silvestres monoculares de cámaras de tablero en un conjunto de sensores multimodales de alta fidelidad (registros de AV) que comprende imágenes de cámaras multivista y nubes de puntos LiDAR. Un desafío central es la falta de datos de entrenamiento emparejados. Abordamos esto convirtiendo registros reales de AV en videos estilo cámara de tablero mediante reconstrucción por Gaussian Splatting 4D (4DGS) y renderizado de vista novedosa. Sensor2Sensor utiliza entonces una arquitectura de difusión para realizar la conversión generativa. Realizamos evaluaciones cuantitativas exhaustivas sobre la fidelidad y el realismo de los datos de sensores generados. Demostramos la utilidad práctica de Sensor2Sensor al convertir material de video desafiante de internet y cámaras de tablero en formatos de datos multimodales realistas, desbloqueando así vastas fuentes de datos externas para el desarrollo de AV.

English

Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.