Sensor2Sensor: Кросс-платформенное преобразование сенсоров для автономного вождения

Аннотация

Надежное обучение и валидация систем автономного вождения (ADS) требуют массивных и разнообразных наборов данных. Собственные данные, собираемые парками автономных транспортных средств (AV), несмотря на высокую точность, ограничены по масштабу, разнообразию конфигураций сенсоров, а также географическому охвату и охвату редких сценариев поведения. В противоположность этому, данные из реального мира, такие как записи с видеорегистраторов, обеспечивают огромный масштаб и разнообразие, захватывая критические редкие сценарии и новые среды. Однако эти неструктурированные видеоданные из реального мира несовместимы с ADS, которые ожидают структурированные мультимодальные сенсорные входные данные для валидации и обучения. Для преодоления этого разрыва в данных мы предлагаем Sensor2Sensor — новую парадигму генеративного моделирования, которая преобразует монокулярные видеозаписи с видеорегистраторов из реального мира в высокоточный мультимодальный набор сенсоров (журналы AV), включающий многовидовые изображения камер и облака точек LiDAR. Ключевая проблема заключается в отсутствии парных обучающих данных. Мы решаем её, преобразуя реальные журналы AV в видео в стиле видеорегистраторов с помощью реконструкции на основе 4D-гауссовского всплеска (4DGS) и рендеринга с новых точек обзора. Затем Sensor2Sensor использует архитектуру диффузии для выполнения генеративного преобразования. Мы проводим всестороннюю количественную оценку точности и реалистичности сгенерированных сенсорных данных. Мы демонстрируем практическую полезность Sensor2Sensor, преобразуя сложные интернет-видео и записи с видеорегистраторов из реального мира в реалистичные мультимодальные форматы данных, тем самым открывая доступ к огромным внешним источникам данных для разработки AV.

English

Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.