Sensor2Sensor: 자율주행을 위한 이기종 센서 변환
Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving
May 21, 2026
저자: Jiahao Wang, Bo Sun, Yijing Bai, Vincent Casser, Songyou Peng, Zehao Zhu, Meng-Li Shih, Xander Masotto, Shih-Yang Su, Kanaad V Parvate, Tiancheng Ge, Linn Bieske, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
cs.AI
초록
자율주행 시스템(ADS)의 강건한 훈련 및 검증을 위해서는 방대하고 다양한 데이터셋이 필요하다. 자율주행 차량(AV) 군집이 수집한 독점 데이터는 고충실도이지만, 규모, 센서 구성의 다양성, 그리고 지리적 및 희귀 행동(장기 꼬리 행동) 커버리지 측면에서 한계가 있다. 반면, 블랙박스와 같은 출처의 실제 현장 데이터는 엄청난 규모와 다양성을 제공하며, 중요한 희귀 시나리오와 새로운 환경을 포착한다. 그러나 이러한 비정형의 실제 현장 비디오 데이터는 검증 및 훈련을 위해 구조화된 다중 모달 센서 입력을 기대하는 ADS와 호환되지 않는다. 이러한 데이터 격차를 해소하기 위해, 우리는 실제 현장의 단일 블랙박스 영상을 다중 시점 카메라 이미지와 라이다 포인트 클라우드로 구성된 고충실도 다중 모달 센서 제품군(AV 로그)으로 변환하는 새로운 생성 모델링 패러다임인 Sensor2Sensor를 제안한다. 핵심 과제는 쌍을 이루는 훈련 데이터의 부족이다. 우리는 4D 가우시안 스플래팅(4DGS) 재구성 및 새로운 시점 렌더링을 통해 실제 AV 로그를 블랙박스 스타일의 비디오로 변환함으로써 이 문제를 해결한다. 그런 다음 Sensor2Sensor는 확산 아키텍처를 활용하여 생성 변환을 수행한다. 우리는 생성된 센서 데이터의 충실도와 사실성에 대한 포괄적인 정량적 평가를 수행한다. 우리는 까다로운 실제 현장 인터넷 및 블랙박스 영상을 사실적인 다중 모달 데이터 형식으로 변환함으로써 Sensor2Sensor의 실용적 유용성을 입증하며, 이를 통해 AV 개발을 위한 방대한 외부 데이터 소스를 추가로 활용할 수 있게 된다.
English
Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.