DiffSemanticFusion: Семантическое растровое объединение BEV для автономного вождения с использованием онлайн-диффузии HD-карт
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
August 3, 2025
Авторы: Zhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun
cs.AI
Аннотация
Автономное вождение требует точного понимания сцены, включая геометрию дороги, участников движения и их семантические взаимосвязи. В сценариях генерации онлайн HD-карт растровые представления хорошо подходят для моделей компьютерного зрения, но недостаточно точны в геометрическом плане, тогда как графовые представления сохраняют структурные детали, но становятся нестабильными без точных карт. Чтобы использовать комплементарные преимущества обоих подходов, мы предлагаем DiffSemanticFusion — фреймворк для мультимодального прогнозирования траекторий и планирования. Наш подход основывается на семантическом растрово-объединенном BEV-пространстве, улучшенном модулем диффузии карт, который повышает стабильность и выразительность онлайн HD-карт. Мы проверяем наш фреймворк на двух задачах: прогнозировании траекторий и сквозном автономном вождении, ориентированном на планирование. Эксперименты на реальных бенчмарках автономного вождения, nuScenes и NAVSIM, демонстрируют улучшение производительности по сравнению с несколькими современными методами. Для задачи прогнозирования на nuScenes мы интегрируем DiffSemanticFusion с QCNet, информированным онлайн HD-картами, достигая улучшения производительности на 5,1%. Для сквозного автономного вождения в NAVSIM DiffSemanticFusion достигает современных результатов с увеличением производительности на 15% в сценариях NavHard. Кроме того, обширные исследования абляции и чувствительности показывают, что наш модуль диффузии карт может быть легко интегрирован в другие векторные подходы для повышения производительности. Все материалы доступны по адресу https://github.com/SunZhigang7/DiffSemanticFusion.
English
Autonomous driving requires accurate scene understanding, including road
geometry, traffic agents, and their semantic relationships. In online HD map
generation scenarios, raster-based representations are well-suited to vision
models but lack geometric precision, while graph-based representations retain
structural detail but become unstable without precise maps. To harness the
complementary strengths of both, we propose DiffSemanticFusion -- a fusion
framework for multimodal trajectory prediction and planning. Our approach
reasons over a semantic raster-fused BEV space, enhanced by a map diffusion
module that improves both the stability and expressiveness of online HD map
representations. We validate our framework on two downstream tasks: trajectory
prediction and planning-oriented end-to-end autonomous driving. Experiments on
real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate
improved performance over several state-of-the-art methods. For the prediction
task on nuScenes, we integrate DiffSemanticFusion with the online HD map
informed QCNet, achieving a 5.1\% performance improvement. For end-to-end
autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art
results, with a 15\% performance gain in NavHard scenarios. In addition,
extensive ablation and sensitivity studies show that our map diffusion module
can be seamlessly integrated into other vector-based approaches to enhance
performance. All artifacts are available at
https://github.com/SunZhigang7/DiffSemanticFusion.