CATS-V2V:複雑な悪条件下の交通シナリオを含む実世界向け車両間協調知覚データセット
CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios
November 14, 2025
著者: Hangyu Li, Bofeng Cao, Zhaohui Liang, Wuzhen Li, Juyoung Oh, Yuxuan Chen, Shixiao Liang, Hang Zhou, Chengyuan Ma, Jiaxi Liu, Zheng Li, Peng Zhang, KeKe Long, Maolin Liu, Jackson Jiang, Chunlei Yu, Shengxiang Liu, Hongkai Yu, Xiaopeng Li
cs.AI
要旨
車両間協調知覚(V2V協調知覚)は、複雑悪条件交通シナリオにおける知覚の限界を克服することで、自動運転の性能向上に大きな可能性を秘めている。一方、データは現代の自動運転AIにおける基盤インフラである。しかし、厳格なデータ収集要件のため、既存のデータセットは主に通常の交通シナリオに焦点を当てており、協調知覚の利点を制限している。この課題に対処するため、我々は複雑悪条件交通シナリオ下におけるV2V協調知覚のための初の実世界データセット「CATS-V2V」を提案する。本データセットは、ハードウェア時間同期された2台の車両により収集され、10の異なる場所における10の気象・照明条件を網羅している。100クリップからなるデータセットには、10HzのLiDAR点群6万フレーム、30Hzのマルチビューカメラ画像126万枚に加え、匿名化されながら高精度なRTK固定GNSS及びIMU記録75万件が含まれる。対応して、物体に対する時間整合性のある3Dバウンディングボックス注釈と、4D BEV表現を構築するための静的场景を提供する。これに基づき、全ての物体が全センサモダリティ間で精密に位置合わせされることを保証する、ターゲットベースの時間アライメント手法を提案する。現在までで最大規模、最高品質、かつ最も支援的な本データセットが、自動運転コミュニティの関連タスクに貢献することを期待する。
English
Vehicle-to-Vehicle (V2V) cooperative perception has great potential to enhance autonomous driving performance by overcoming perception limitations in complex adverse traffic scenarios (CATS). Meanwhile, data serves as the fundamental infrastructure for modern autonomous driving AI. However, due to stringent data collection requirements, existing datasets focus primarily on ordinary traffic scenarios, constraining the benefits of cooperative perception. To address this challenge, we introduce CATS-V2V, the first-of-its-kind real-world dataset for V2V cooperative perception under complex adverse traffic scenarios. The dataset was collected by two hardware time-synchronized vehicles, covering 10 weather and lighting conditions across 10 diverse locations. The 100-clip dataset includes 60K frames of 10 Hz LiDAR point clouds and 1.26M multi-view 30 Hz camera images, along with 750K anonymized yet high-precision RTK-fixed GNSS and IMU records. Correspondingly, we provide time-consistent 3D bounding box annotations for objects, as well as static scenes to construct a 4D BEV representation. On this basis, we propose a target-based temporal alignment method, ensuring that all objects are precisely aligned across all sensor modalities. We hope that CATS-V2V, the largest-scale, most supportive, and highest-quality dataset of its kind to date, will benefit the autonomous driving community in related tasks.