Sensor2Sensor : Conversion de capteurs inter-embodiment pour la conduite autonome

Résumé

L’entraînement et la validation robustes des Systèmes de Conduite Autonome (SCA) nécessitent des ensembles de données massifs et diversifiés. Les données propriétaires collectées par les flottes de Véhicules Autonomes (VA), bien qu’elles soient de haute fidélité, sont limitées en termes d’échelle, de diversité des configurations de capteurs, ainsi que de couverture géographique et comportementale des cas rares (« long-tail »). En revanche, les données issues du monde réel (« in-the-wild »), comme celles provenant de caméras embarquées (« dashcams »), offrent une échelle et une diversité immenses, capturant des scénarios rares critiques et des environnements inédits. Cependant, ces données vidéo non structurées et issues du monde réel sont incompatibles avec les SCA, qui attendent des entrées multimodales structurées pour la validation et l’entraînement. Afin de combler cet écart de données, nous proposons Sensor2Sensor, un nouveau paradigme de modélisation générative qui traduit les vidéos monoculaires de dashcams issues du monde réel en une suite de capteurs multimodale et haute-fidélité (logs VA) comprenant des images multi-vues et des nuages de points LiDAR. Un défi central est l’absence de données d’entraînement appariées. Nous y répondons en convertissant des logs VA réels en vidéos de style dashcam via une reconstruction par Splatting Gaussien 4D (4DGS) et un rendu de nouvelles vues. Sensor2Sensor utilise ensuite une architecture de diffusion pour effectuer la conversion générative. Nous menons des évaluations quantitatives complètes sur la fidélité et le réalisme des données de capteurs générées. Nous démontrons l’utilité pratique de Sensor2Sensor en convertissant des séquences internet et dashcam difficiles, issues du monde réel, en formats de données multimodaux réalistes, débloquant ainsi de vastes sources de données externes pour le développement des VA.

English

Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.