ChatPaper.aiChatPaper

CATS-V2V: 복잡한 열악한 교통 상황을 포함한 실세계 차량 간 협력 인식 데이터셋

CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios

November 14, 2025
저자: Hangyu Li, Bofeng Cao, Zhaohui Liang, Wuzhen Li, Juyoung Oh, Yuxuan Chen, Shixiao Liang, Hang Zhou, Chengyuan Ma, Jiaxi Liu, Zheng Li, Peng Zhang, KeKe Long, Maolin Liu, Jackson Jiang, Chunlei Yu, Shengxiang Liu, Hongkai Yu, Xiaopeng Li
cs.AI

초록

차량 간 협력 인식(V2V cooperative perception)은 복잡한 악천후 교통 시나리오(CATS)에서의 인식 한계를 극복함으로써 자율 주행 성능을 향상시킬 큰 잠재력을 지니고 있습니다. 한편 데이터는 현대 자율 주행 AI의 기반 인프라 역할을 합니다. 그러나 엄격한 데이터 수집 요구 사항으로 인해 기존 데이터셋은 주로 일반적인 교통 시나리오에 집중되어 있어 협력 인식의 이점을 제한하고 있습니다. 이러한 문제를 해결하기 위해 우리는 복잡한 악천후 교통 시나리오에서 V2V 협력 인식을 위한 최초의 실제 환경 데이터셋인 CATS-V2V를 소개합니다. 이 데이터셋은 하드웨어적으로 시간 동기화된 두 대의 차량으로 수집되었으며, 10개 다양한 지역에서 10가지 기상 및 조도 조건을 포괄합니다. 100개 클립으로 구성된 데이터셋에는 10Hz LiDAR 포인트 클라우드 60,000프레임과 1.26백만 개의 다중 뷰 30Hz 카메라 이미지, 그리고 75만 개의 익명화되었으나 고정밀 RTK GNSS 및 IMU 기록이 포함되어 있습니다. 이에 상응하여 우리는 객체에 대한 시간 일관적 3D 바운딩 박스 주석과 정적 장면 정보를 제공하여 4D BEV 표현을 구성합니다. 이를 바탕으로 우리는 객체 기반 시간 정렬 방법을 제안하여 모든 센서 모달리티에서 모든 객체가 정확하게 정렬되도록 보장합니다. 우리는 현재까지 동종 최대 규모이자 가장 포괄적이며 최고 품질의 데이터셋인 CATS-V2V가 관련 업계의 자율 주행 과제에 기여하기를 바랍니다.
English
Vehicle-to-Vehicle (V2V) cooperative perception has great potential to enhance autonomous driving performance by overcoming perception limitations in complex adverse traffic scenarios (CATS). Meanwhile, data serves as the fundamental infrastructure for modern autonomous driving AI. However, due to stringent data collection requirements, existing datasets focus primarily on ordinary traffic scenarios, constraining the benefits of cooperative perception. To address this challenge, we introduce CATS-V2V, the first-of-its-kind real-world dataset for V2V cooperative perception under complex adverse traffic scenarios. The dataset was collected by two hardware time-synchronized vehicles, covering 10 weather and lighting conditions across 10 diverse locations. The 100-clip dataset includes 60K frames of 10 Hz LiDAR point clouds and 1.26M multi-view 30 Hz camera images, along with 750K anonymized yet high-precision RTK-fixed GNSS and IMU records. Correspondingly, we provide time-consistent 3D bounding box annotations for objects, as well as static scenes to construct a 4D BEV representation. On this basis, we propose a target-based temporal alignment method, ensuring that all objects are precisely aligned across all sensor modalities. We hope that CATS-V2V, the largest-scale, most supportive, and highest-quality dataset of its kind to date, will benefit the autonomous driving community in related tasks.
PDF02December 1, 2025