RoCo-Sim: Miglioramento della percezione collaborativa stradale attraverso la simulazione in primo piano
RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
March 13, 2025
Autori: Yuwen Du, Anning Hu, Zichen Chao, Yifan Lu, Junhao Ge, Genjia Liu, Weitao Wu, Lanjun Wang, Siheng Chen
cs.AI
Abstract
La Percezione Collaborativa Stradale si riferisce a un sistema in cui più unità stradali collaborano per condividere i loro dati percettivi, assistendo i veicoli nel migliorare la loro consapevolezza ambientale. I metodi esistenti di percezione stradale si concentrano sulla progettazione del modello ma trascurano problemi legati ai dati come errori di calibrazione, informazioni sparse e coerenza multi-vista, portando a scarse prestazioni sui dataset pubblicati di recente. Per migliorare significativamente la percezione collaborativa stradale e affrontare i problemi critici legati ai dati, presentiamo il primo framework di simulazione RoCo-Sim per la percezione collaborativa stradale. RoCo-Sim è in grado di generare dati simulati stradali diversificati e coerenti multi-vista attraverso l'editing dinamico del primo piano e il trasferimento di stile completo di una singola immagine. RoCo-Sim è composto da quattro componenti: (1) L'ottimizzazione delle estrinseche della telecamera garantisce una proiezione accurata da 3D a 2D per le telecamere stradali; (2) Un nuovo campionatore multi-vista consapevole dell'occlusione (MOAS) determina il posizionamento di diverse risorse digitali nello spazio 3D; (3) DepthSAM modella in modo innovativo le relazioni primo piano-sfondo da immagini a vista fissa a singolo fotogramma, garantendo la coerenza multi-vista del primo piano; e (4) Un toolkit di post-elaborazione scalabile genera scene più realistiche e arricchite attraverso il trasferimento di stile e altri miglioramenti. RoCo-Sim migliora significativamente il rilevamento di oggetti 3D stradali, superando i metodi SOTA di 83,74 su Rcooper-Intersection e 83,12 su TUMTraf-V2X per AP70. RoCo-Sim colma una lacuna critica nella simulazione della percezione stradale. Il codice e i modelli pre-addestrati saranno presto rilasciati: https://github.com/duyuwen-duen/RoCo-Sim
English
Roadside Collaborative Perception refers to a system where multiple roadside
units collaborate to pool their perceptual data, assisting vehicles in
enhancing their environmental awareness. Existing roadside perception methods
concentrate on model design but overlook data issues like calibration errors,
sparse information, and multi-view consistency, leading to poor performance on
recent published datasets. To significantly enhance roadside collaborative
perception and address critical data issues, we present the first simulation
framework RoCo-Sim for road-side collaborative perception. RoCo-Sim is capable
of generating diverse, multi-view consistent simulated roadside data through
dynamic foreground editing and full-scene style transfer of a single image.
RoCo-Sim consists of four components: (1) Camera Extrinsic Optimization ensures
accurate 3D to 2D projection for roadside cameras; (2) A novel Multi-View
Occlusion-Aware Sampler (MOAS) determines the placement of diverse digital
assets within 3D space; (3) DepthSAM innovatively models foreground-background
relationships from single-frame fixed-view images, ensuring multi-view
consistency of foreground; and (4) Scalable Post-Processing Toolkit generates
more realistic and enriched scenes through style transfer and other
enhancements. RoCo-Sim significantly improves roadside 3D object detection,
outperforming SOTA methods by 83.74 on Rcooper-Intersection and 83.12 on
TUMTraf-V2X for AP70. RoCo-Sim fills a critical gap in roadside perception
simulation. Code and pre-trained models will be released soon:
https://github.com/duyuwen-duen/RoCo-Sim