Sensor2Sensor: Cross-Embodiment Sensorconversie voor Autonoom Rijden

Samenvatting

Robuuste training en validatie van autonome rijsystemen (ADS) vereisen enorme, diverse datasets. Propriëtaire data verzameld door autonome voertuigvloot (AV-vloot) is weliswaar van hoge getrouwheid, maar beperkt in schaal, diversiteit van sensorconfiguraties, en geografische dekking en dekking van gedrag in de lange staart (long-tail). Daarentegen bieden data uit het wild (in-the-wild), zoals afkomstig van dashcams, een enorme schaal en diversiteit, en leggen ze kritieke langstaartscenario's en nieuwe omgevingen vast. Deze ongestructureerde videodata uit het wild is echter niet compatibel met ADS, die gestructureerde, multimodale sensorinputs verwachten voor validatie en training. Om deze datakloof te overbruggen, stellen wij Sensor2Sensor voor, een nieuw generatief modelleerparadigma dat monoculaire dashcamvideo's uit het wild omzet naar een multimodale sensorsuite (AV-logs) met hoge getrouwheid, bestaande uit beelden van meerdere camera's en LiDAR-puntenwolken. Een kernprobleem is het gebrek aan gepaarde trainingsdata. We lossen dit op door echte AV-logs om te zetten naar dashcam-achtige video's met behulp van 4D Gaussiaanse Splatting (4DGS)-reconstructie en weergave vanuit nieuwe gezichtspunten. Sensor2Sensor maakt vervolgens gebruik van een diffusiearchitectuur om de generatieve conversie uit te voeren. We voeren uitgebreide kwantitatieve evaluaties uit op de getrouwheid en het realisme van de gegenereerde sensordata. We tonen het praktische nut van Sensor2Sensor aan door uitdagende internet- en dashcambeelden uit het wild om te zetten naar realistische, multimodale dataformaten, waarmee enorme externe databronnen worden ontsloten voor de ontwikkeling van AV's.

English

Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.