DiffSemanticFusion: Fusione Semantica Raster BEV per la Guida Autonoma tramite Diffusione Online di Mappe HD
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
August 3, 2025
Autori: Zhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun
cs.AI
Abstract
La guida autonoma richiede una comprensione accurata della scena, inclusa la geometria stradale, gli agenti del traffico e le loro relazioni semantiche. Negli scenari di generazione online di mappe HD, le rappresentazioni basate su raster sono ben adattate ai modelli visivi ma mancano di precisione geometrica, mentre le rappresentazioni basate su grafi mantengono i dettagli strutturali ma diventano instabili senza mappe precise. Per sfruttare i punti di forza complementari di entrambe, proponiamo DiffSemanticFusion -- un framework di fusione per la previsione e la pianificazione multimodale delle traiettorie. Il nostro approccio ragiona su uno spazio BEV fuso semanticamente con raster, arricchito da un modulo di diffusione delle mappe che migliora sia la stabilità che l'espressività delle rappresentazioni online delle mappe HD. Validiamo il nostro framework su due task downstream: la previsione delle traiettorie e la guida autonoma end-to-end orientata alla pianificazione. Gli esperimenti sui benchmark di guida autonoma del mondo reale, nuScenes e NAVSIM, dimostrano un miglioramento delle prestazioni rispetto a diversi metodi all'avanguardia. Per il task di previsione su nuScenes, integriamo DiffSemanticFusion con QCNet informato dalla mappa HD online, ottenendo un miglioramento delle prestazioni del 5,1%. Per la guida autonoma end-to-end in NAVSIM, DiffSemanticFusion raggiunge risultati all'avanguardia, con un guadagno di prestazioni del 15% negli scenari NavHard. Inoltre, ampi studi di ablazione e sensibilità mostrano che il nostro modulo di diffusione delle mappe può essere integrato senza soluzione di continuità in altri approcci basati su vettori per migliorare le prestazioni. Tutti gli artefatti sono disponibili su https://github.com/SunZhigang7/DiffSemanticFusion.
English
Autonomous driving requires accurate scene understanding, including road
geometry, traffic agents, and their semantic relationships. In online HD map
generation scenarios, raster-based representations are well-suited to vision
models but lack geometric precision, while graph-based representations retain
structural detail but become unstable without precise maps. To harness the
complementary strengths of both, we propose DiffSemanticFusion -- a fusion
framework for multimodal trajectory prediction and planning. Our approach
reasons over a semantic raster-fused BEV space, enhanced by a map diffusion
module that improves both the stability and expressiveness of online HD map
representations. We validate our framework on two downstream tasks: trajectory
prediction and planning-oriented end-to-end autonomous driving. Experiments on
real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate
improved performance over several state-of-the-art methods. For the prediction
task on nuScenes, we integrate DiffSemanticFusion with the online HD map
informed QCNet, achieving a 5.1\% performance improvement. For end-to-end
autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art
results, with a 15\% performance gain in NavHard scenarios. In addition,
extensive ablation and sensitivity studies show that our map diffusion module
can be seamlessly integrated into other vector-based approaches to enhance
performance. All artifacts are available at
https://github.com/SunZhigang7/DiffSemanticFusion.