Sensor2Sensor: Fahrzeugübergreifende Sensorumwandlung für autonomes Fahren

Zusammenfassung

Robustes Training und Validierung von Autonomen Fahrsystemen (ADS) erfordern massive, vielfältige Datensätze. Proprietäre Daten, die von Flotten autonomer Fahrzeuge (AV) erfasst werden, sind zwar von hoher Genauigkeit, jedoch in Bezug auf Umfang, Vielfalt der Sensorkonfigurationen sowie geografische Abdeckung und Abdeckung von seltenen Verhaltensweisen (Long-Tail-Verhalten) begrenzt. Im Gegensatz dazu bieten In-the-Wild-Daten aus Quellen wie Dashcams einen enormen Umfang und eine große Vielfalt, da sie kritische Long-Tail-Szenarien und neuartige Umgebungen erfassen. Allerdings sind diese unstrukturierten In-the-Wild-Videodaten nicht kompatibel mit ADS, die für Validierung und Training strukturierte, multimodale Sensoreingaben erwarten. Um diese Datenlücke zu schließen, schlagen wir Sensor2Sensor vor, ein neuartiges generatives Modellierungsparadigma, das In-the-Wild-Monokular-Dashcam-Videos in einen hochgenauen, multimodalen Sensorsatz (AV-Logs) übersetzt, der Multiview-Kamerabilder und LiDAR-Punktwolken umfasst. Eine zentrale Herausforderung ist das Fehlen gepaarter Trainingsdaten. Wir adressieren dies, indem wir reale AV-Logs durch 4D-Gaussian-Splatting-Rekonstruktion (4DGS) und Novel-View-Rendering in Dashcam-ähnliche Videos umwandeln. Sensor2Sensor nutzt dann eine Diffusionsarchitektur zur Durchführung der generativen Konvertierung. Wir führen umfassende quantitative Bewertungen der Genauigkeit und Realitätsnähe der generierten Sensordaten durch. Wir demonstrieren den praktischen Nutzen von Sensor2Sensor, indem wir anspruchsvolles Internet- und Dashcam-Material aus der realen Welt in realistische, multimodale Datenformate konvertieren und so riesige externe Datenquellen für die AV-Entwicklung erschließen.

English

Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.