RoCo-Sim: Улучшение совместного восприятия на дороге с помощью симуляции переднего плана
RoCo-Sim: Enhancing Roadside Collaborative Perception through Foreground Simulation
March 13, 2025
Авторы: Yuwen Du, Anning Hu, Zichen Chao, Yifan Lu, Junhao Ge, Genjia Liu, Weitao Wu, Lanjun Wang, Siheng Chen
cs.AI
Аннотация
Коллективное восприятие на дороге (Roadside Collaborative Perception) — это система, в которой несколько придорожных устройств совместно объединяют свои данные восприятия, помогая транспортным средствам повышать осведомленность об окружающей среде. Существующие методы придорожного восприятия сосредоточены на проектировании моделей, но игнорируют проблемы данных, такие как ошибки калибровки, разреженная информация и согласованность между несколькими видами, что приводит к низкой производительности на недавно опубликованных наборах данных. Для значительного улучшения коллективного восприятия на дороге и решения ключевых проблем данных мы представляем первый симуляционный фреймворк RoCo-Sim для придорожного коллективного восприятия. RoCo-Sim способен генерировать разнообразные, согласованные между несколькими видами симулированные придорожные данные с помощью динамического редактирования переднего плана и полного переноса стиля с одного изображения. RoCo-Sim состоит из четырех компонентов: (1) Оптимизация внешних параметров камеры (Camera Extrinsic Optimization) обеспечивает точную проекцию 3D в 2D для придорожных камер; (2) Новый сэмплер с учетом заслонений между видами (Multi-View Occlusion-Aware Sampler, MOAS) определяет размещение разнообразных цифровых объектов в 3D-пространстве; (3) DepthSAM инновационно моделирует отношения переднего и заднего плана на основе однокадровых изображений с фиксированным видом, обеспечивая согласованность переднего плана между несколькими видами; и (4) Масштабируемый инструментарий постобработки (Scalable Post-Processing Toolkit) создает более реалистичные и насыщенные сцены с помощью переноса стиля и других улучшений. RoCo-Sim значительно улучшает обнаружение 3D-объектов на дороге, превосходя современные методы (SOTA) на 83.74 на Rcooper-Intersection и на 83.12 на TUMTraf-V2X по метрике AP70. RoCo-Sim заполняет критический пробел в симуляции придорожного восприятия. Код и предварительно обученные модели будут скоро выпущены: https://github.com/duyuwen-duen/RoCo-Sim.
English
Roadside Collaborative Perception refers to a system where multiple roadside
units collaborate to pool their perceptual data, assisting vehicles in
enhancing their environmental awareness. Existing roadside perception methods
concentrate on model design but overlook data issues like calibration errors,
sparse information, and multi-view consistency, leading to poor performance on
recent published datasets. To significantly enhance roadside collaborative
perception and address critical data issues, we present the first simulation
framework RoCo-Sim for road-side collaborative perception. RoCo-Sim is capable
of generating diverse, multi-view consistent simulated roadside data through
dynamic foreground editing and full-scene style transfer of a single image.
RoCo-Sim consists of four components: (1) Camera Extrinsic Optimization ensures
accurate 3D to 2D projection for roadside cameras; (2) A novel Multi-View
Occlusion-Aware Sampler (MOAS) determines the placement of diverse digital
assets within 3D space; (3) DepthSAM innovatively models foreground-background
relationships from single-frame fixed-view images, ensuring multi-view
consistency of foreground; and (4) Scalable Post-Processing Toolkit generates
more realistic and enriched scenes through style transfer and other
enhancements. RoCo-Sim significantly improves roadside 3D object detection,
outperforming SOTA methods by 83.74 on Rcooper-Intersection and 83.12 on
TUMTraf-V2X for AP70. RoCo-Sim fills a critical gap in roadside perception
simulation. Code and pre-trained models will be released soon:
https://github.com/duyuwen-duen/RoCo-SimSummary
AI-Generated Summary