RoCo-Sim: Mejora de la percepción colaborativa en carretera mediante simulación de primer plano
RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
March 13, 2025
Autores: Yuwen Du, Anning Hu, Zichen Chao, Yifan Lu, Junhao Ge, Genjia Liu, Weitao Wu, Lanjun Wang, Siheng Chen
cs.AI
Resumen
La Percepción Colaborativa en Carretera se refiere a un sistema donde múltiples unidades en el borde de la carretera colaboran para combinar sus datos perceptivos, ayudando a los vehículos a mejorar su conciencia del entorno. Los métodos existentes de percepción en carretera se centran en el diseño de modelos pero pasan por alto problemas de datos como errores de calibración, información dispersa y consistencia multi-vista, lo que resulta en un rendimiento deficiente en los conjuntos de datos publicados recientemente. Para mejorar significativamente la percepción colaborativa en carretera y abordar problemas críticos de datos, presentamos el primer marco de simulación RoCo-Sim para la percepción colaborativa en carretera. RoCo-Sim es capaz de generar datos simulados diversos y consistentes en multi-vista a través de la edición dinámica de primer plano y la transferencia de estilo de escena completa de una sola imagen. RoCo-Sim consta de cuatro componentes: (1) La Optimización de Extrínsecos de Cámara asegura una proyección precisa de 3D a 2D para las cámaras en carretera; (2) Un nuevo Muestreador Consciente de Oclusión Multi-Vista (MOAS) determina la ubicación de diversos activos digitales dentro del espacio 3D; (3) DepthSAM modela de manera innovadora las relaciones entre primer plano y fondo a partir de imágenes de vista fija de un solo fotograma, asegurando la consistencia multi-vista del primer plano; y (4) Un Kit de Herramientas de Post-Procesamiento Escalable genera escenas más realistas y enriquecidas mediante transferencia de estilo y otras mejoras. RoCo-Sim mejora significativamente la detección de objetos 3D en carretera, superando a los métodos SOTA en 83.74 en Rcooper-Intersection y 83.12 en TUMTraf-V2X para AP70. RoCo-Sim llena un vacío crítico en la simulación de percepción en carretera. El código y los modelos pre-entrenados se lanzarán pronto: https://github.com/duyuwen-duen/RoCo-Sim
English
Roadside Collaborative Perception refers to a system where multiple roadside
units collaborate to pool their perceptual data, assisting vehicles in
enhancing their environmental awareness. Existing roadside perception methods
concentrate on model design but overlook data issues like calibration errors,
sparse information, and multi-view consistency, leading to poor performance on
recent published datasets. To significantly enhance roadside collaborative
perception and address critical data issues, we present the first simulation
framework RoCo-Sim for road-side collaborative perception. RoCo-Sim is capable
of generating diverse, multi-view consistent simulated roadside data through
dynamic foreground editing and full-scene style transfer of a single image.
RoCo-Sim consists of four components: (1) Camera Extrinsic Optimization ensures
accurate 3D to 2D projection for roadside cameras; (2) A novel Multi-View
Occlusion-Aware Sampler (MOAS) determines the placement of diverse digital
assets within 3D space; (3) DepthSAM innovatively models foreground-background
relationships from single-frame fixed-view images, ensuring multi-view
consistency of foreground; and (4) Scalable Post-Processing Toolkit generates
more realistic and enriched scenes through style transfer and other
enhancements. RoCo-Sim significantly improves roadside 3D object detection,
outperforming SOTA methods by 83.74 on Rcooper-Intersection and 83.12 on
TUMTraf-V2X for AP70. RoCo-Sim fills a critical gap in roadside perception
simulation. Code and pre-trained models will be released soon:
https://github.com/duyuwen-duen/RoCo-Sim