RoCo-Sim: 前景シミュレーションによる路側協調知覚の強化
RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
March 13, 2025
著者: Yuwen Du, Anning Hu, Zichen Chao, Yifan Lu, Junhao Ge, Genjia Liu, Weitao Wu, Lanjun Wang, Siheng Chen
cs.AI
要旨
路側協調知覚(Roadside Collaborative Perception)とは、複数の路側ユニットが協力して知覚データを統合し、車両の環境認識能力を向上させるシステムを指します。既存の路側知覚手法はモデル設計に重点を置いていますが、キャリブレーション誤差、情報の希薄性、マルチビュー一貫性といったデータの問題を見落としており、最近公開されたデータセットでの性能が低いという課題があります。路側協調知覚を大幅に向上させ、重要なデータ問題に対処するため、我々は初のシミュレーションフレームワーク「RoCo-Sim」を提案します。RoCo-Simは、単一画像の動的前景編集と全シーンスタイル転移を通じて、多様でマルチビュー一貫性のあるシミュレーション路側データを生成することができます。RoCo-Simは以下の4つのコンポーネントで構成されています:(1) カメラ外部パラメータ最適化により、路側カメラの正確な3Dから2Dへの投影を保証します;(2) 新規のマルチビューオクルージョン対応サンプラー(MOAS)が、3D空間内に多様なデジタルアセットを配置します;(3) DepthSAMは、単一フレームの固定ビュー画像から前景と背景の関係を革新的にモデル化し、前景のマルチビュー一貫性を保証します;(4) スケーラブルな後処理ツールキットが、スタイル転移やその他の拡張を通じて、より現実的で豊かなシーンを生成します。RoCo-Simは路側3D物体検出を大幅に改善し、Rcooper-IntersectionではAP70でSOTA手法を83.74、TUMTraf-V2Xでは83.12上回りました。RoCo-Simは路側知覚シミュレーションにおける重要なギャップを埋めるものです。コードと事前学習済みモデルは近日公開予定です:https://github.com/duyuwen-duen/RoCo-Sim
English
Roadside Collaborative Perception refers to a system where multiple roadside
units collaborate to pool their perceptual data, assisting vehicles in
enhancing their environmental awareness. Existing roadside perception methods
concentrate on model design but overlook data issues like calibration errors,
sparse information, and multi-view consistency, leading to poor performance on
recent published datasets. To significantly enhance roadside collaborative
perception and address critical data issues, we present the first simulation
framework RoCo-Sim for road-side collaborative perception. RoCo-Sim is capable
of generating diverse, multi-view consistent simulated roadside data through
dynamic foreground editing and full-scene style transfer of a single image.
RoCo-Sim consists of four components: (1) Camera Extrinsic Optimization ensures
accurate 3D to 2D projection for roadside cameras; (2) A novel Multi-View
Occlusion-Aware Sampler (MOAS) determines the placement of diverse digital
assets within 3D space; (3) DepthSAM innovatively models foreground-background
relationships from single-frame fixed-view images, ensuring multi-view
consistency of foreground; and (4) Scalable Post-Processing Toolkit generates
more realistic and enriched scenes through style transfer and other
enhancements. RoCo-Sim significantly improves roadside 3D object detection,
outperforming SOTA methods by 83.74 on Rcooper-Intersection and 83.12 on
TUMTraf-V2X for AP70. RoCo-Sim fills a critical gap in roadside perception
simulation. Code and pre-trained models will be released soon:
https://github.com/duyuwen-duen/RoCo-SimSummary
AI-Generated Summary