RoCo-Sim : Amélioration de la perception collaborative en bord de route par simulation de premier plan
RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
March 13, 2025
Auteurs: Yuwen Du, Anning Hu, Zichen Chao, Yifan Lu, Junhao Ge, Genjia Liu, Weitao Wu, Lanjun Wang, Siheng Chen
cs.AI
Résumé
La perception collaborative en bord de route fait référence à un système où plusieurs unités en bord de route collaborent pour mutualiser leurs données perceptuelles, aidant ainsi les véhicules à améliorer leur conscience environnementale. Les méthodes existantes de perception en bord de route se concentrent sur la conception de modèles mais négligent les problèmes liés aux données, tels que les erreurs de calibration, les informations éparses et la cohérence multi-vues, ce qui entraîne de mauvaises performances sur les ensembles de données récemment publiés. Pour améliorer significativement la perception collaborative en bord de route et résoudre ces problèmes critiques liés aux données, nous présentons le premier cadre de simulation RoCo-Sim dédié à la perception collaborative en bord de route. RoCo-Sim est capable de générer des données simulées en bord de route diversifiées et cohérentes en multi-vues grâce à l'édition dynamique du premier plan et au transfert de style de scène complète à partir d'une seule image. RoCo-Sim se compose de quatre éléments : (1) L'Optimisation des Extrinsèques de Caméra assure une projection 3D vers 2D précise pour les caméras en bord de route ; (2) Un nouvel Échantillonneur Conscient des Occlusions Multi-Vues (MOAS) détermine le placement de divers actifs numériques dans l'espace 3D ; (3) DepthSAM modélise de manière innovante les relations premier plan-arrière-plan à partir d'images fixes à vue unique, garantissant la cohérence multi-vues du premier plan ; et (4) Une Boîte à Outils de Post-Traitement Évolutive génère des scènes plus réalistes et enrichies grâce au transfert de style et à d'autres améliorations. RoCo-Sim améliore significativement la détection d'objets 3D en bord de route, surpassant les méthodes SOTA de 83,74 sur Rcooper-Intersection et de 83,12 sur TUMTraf-V2X pour AP70. RoCo-Sim comble une lacune critique dans la simulation de perception en bord de route. Le code et les modèles pré-entraînés seront bientôt disponibles : https://github.com/duyuwen-duen/RoCo-Sim
English
Roadside Collaborative Perception refers to a system where multiple roadside
units collaborate to pool their perceptual data, assisting vehicles in
enhancing their environmental awareness. Existing roadside perception methods
concentrate on model design but overlook data issues like calibration errors,
sparse information, and multi-view consistency, leading to poor performance on
recent published datasets. To significantly enhance roadside collaborative
perception and address critical data issues, we present the first simulation
framework RoCo-Sim for road-side collaborative perception. RoCo-Sim is capable
of generating diverse, multi-view consistent simulated roadside data through
dynamic foreground editing and full-scene style transfer of a single image.
RoCo-Sim consists of four components: (1) Camera Extrinsic Optimization ensures
accurate 3D to 2D projection for roadside cameras; (2) A novel Multi-View
Occlusion-Aware Sampler (MOAS) determines the placement of diverse digital
assets within 3D space; (3) DepthSAM innovatively models foreground-background
relationships from single-frame fixed-view images, ensuring multi-view
consistency of foreground; and (4) Scalable Post-Processing Toolkit generates
more realistic and enriched scenes through style transfer and other
enhancements. RoCo-Sim significantly improves roadside 3D object detection,
outperforming SOTA methods by 83.74 on Rcooper-Intersection and 83.12 on
TUMTraf-V2X for AP70. RoCo-Sim fills a critical gap in roadside perception
simulation. Code and pre-trained models will be released soon:
https://github.com/duyuwen-duen/RoCo-SimSummary
AI-Generated Summary