RoCo-Sim: 전경 시뮬레이션을 통한 도로변 협업 인지 성능 향상
RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
March 13, 2025
저자: Yuwen Du, Anning Hu, Zichen Chao, Yifan Lu, Junhao Ge, Genjia Liu, Weitao Wu, Lanjun Wang, Siheng Chen
cs.AI
초록
도로변 협업 인식(Roadside Collaborative Perception)은 여러 도로변 장치들이 서로 협력하여 인식 데이터를 공유함으로써 차량의 환경 인식 능력을 향상시키는 시스템을 의미합니다. 기존의 도로변 인식 방법들은 모델 설계에 집중하지만, 캘리브레이션 오류, 희소 정보, 다중 뷰 일관성과 같은 데이터 문제를 간과하여 최근 공개된 데이터셋에서 낮은 성능을 보여왔습니다. 이러한 중요한 데이터 문제를 해결하고 도로변 협업 인식을 크게 개선하기 위해, 우리는 도로변 협업 인식을 위한 첫 번째 시뮬레이션 프레임워크인 RoCo-Sim을 제안합니다. RoCo-Sim은 단일 이미지의 동적 전경 편집과 전체 장면 스타일 전이를 통해 다양하고 다중 뷰 일관성을 갖춘 시뮬레이션된 도로변 데이터를 생성할 수 있습니다. RoCo-Sim은 네 가지 구성 요소로 이루어져 있습니다: (1) 카메라 외부 파라미터 최적화(Camera Extrinsic Optimization)는 도로변 카메라의 정확한 3D에서 2D 투영을 보장합니다; (2) 새로운 다중 뷰 오클루전 인식 샘플러(Multi-View Occlusion-Aware Sampler, MOAS)는 3D 공간 내 다양한 디지털 자산의 배치를 결정합니다; (3) DepthSAM은 단일 프레임 고정 뷰 이미지에서 전경과 배경의 관계를 혁신적으로 모델링하여 전경의 다중 뷰 일관성을 보장합니다; 그리고 (4) 확장 가능한 후처리 도구(Scalable Post-Processing Toolkit)는 스타일 전이 및 기타 개선을 통해 더 현실적이고 풍부한 장면을 생성합니다. RoCo-Sim은 도로변 3D 객체 탐지를 크게 개선하여, Rcooper-Intersection에서 83.74, TUMTraf-V2X에서 83.12의 AP70 점수로 SOTA 방법들을 능가합니다. RoCo-Sim은 도로변 인식 시뮬레이션의 중요한 공백을 메웁니다. 코드와 사전 학습된 모델은 곧 공개될 예정입니다: https://github.com/duyuwen-duen/RoCo-Sim
English
Roadside Collaborative Perception refers to a system where multiple roadside
units collaborate to pool their perceptual data, assisting vehicles in
enhancing their environmental awareness. Existing roadside perception methods
concentrate on model design but overlook data issues like calibration errors,
sparse information, and multi-view consistency, leading to poor performance on
recent published datasets. To significantly enhance roadside collaborative
perception and address critical data issues, we present the first simulation
framework RoCo-Sim for road-side collaborative perception. RoCo-Sim is capable
of generating diverse, multi-view consistent simulated roadside data through
dynamic foreground editing and full-scene style transfer of a single image.
RoCo-Sim consists of four components: (1) Camera Extrinsic Optimization ensures
accurate 3D to 2D projection for roadside cameras; (2) A novel Multi-View
Occlusion-Aware Sampler (MOAS) determines the placement of diverse digital
assets within 3D space; (3) DepthSAM innovatively models foreground-background
relationships from single-frame fixed-view images, ensuring multi-view
consistency of foreground; and (4) Scalable Post-Processing Toolkit generates
more realistic and enriched scenes through style transfer and other
enhancements. RoCo-Sim significantly improves roadside 3D object detection,
outperforming SOTA methods by 83.74 on Rcooper-Intersection and 83.12 on
TUMTraf-V2X for AP70. RoCo-Sim fills a critical gap in roadside perception
simulation. Code and pre-trained models will be released soon:
https://github.com/duyuwen-duen/RoCo-SimSummary
AI-Generated Summary