DiffSemanticFusion: Fusione Semantica Raster BEV per la Guida Autonoma tramite Diffusione Online di Mappe HD

Abstract

La guida autonoma richiede una comprensione accurata della scena, inclusa la geometria stradale, gli agenti del traffico e le loro relazioni semantiche. Negli scenari di generazione online di mappe HD, le rappresentazioni basate su raster sono ben adattate ai modelli visivi ma mancano di precisione geometrica, mentre le rappresentazioni basate su grafi mantengono i dettagli strutturali ma diventano instabili senza mappe precise. Per sfruttare i punti di forza complementari di entrambe, proponiamo DiffSemanticFusion -- un framework di fusione per la previsione e la pianificazione multimodale delle traiettorie. Il nostro approccio ragiona su uno spazio BEV fuso semanticamente con raster, arricchito da un modulo di diffusione delle mappe che migliora sia la stabilità che l'espressività delle rappresentazioni online delle mappe HD. Validiamo il nostro framework su due task downstream: la previsione delle traiettorie e la guida autonoma end-to-end orientata alla pianificazione. Gli esperimenti sui benchmark di guida autonoma del mondo reale, nuScenes e NAVSIM, dimostrano un miglioramento delle prestazioni rispetto a diversi metodi all'avanguardia. Per il task di previsione su nuScenes, integriamo DiffSemanticFusion con QCNet informato dalla mappa HD online, ottenendo un miglioramento delle prestazioni del 5,1%. Per la guida autonoma end-to-end in NAVSIM, DiffSemanticFusion raggiunge risultati all'avanguardia, con un guadagno di prestazioni del 15% negli scenari NavHard. Inoltre, ampi studi di ablazione e sensibilità mostrano che il nostro modulo di diffusione delle mappe può essere integrato senza soluzione di continuità in altri approcci basati su vettori per migliorare le prestazioni. Tutti gli artefatti sono disponibili su https://github.com/SunZhigang7/DiffSemanticFusion.

English

Autonomous driving requires accurate scene understanding, including road geometry, traffic agents, and their semantic relationships. In online HD map generation scenarios, raster-based representations are well-suited to vision models but lack geometric precision, while graph-based representations retain structural detail but become unstable without precise maps. To harness the complementary strengths of both, we propose DiffSemanticFusion -- a fusion framework for multimodal trajectory prediction and planning. Our approach reasons over a semantic raster-fused BEV space, enhanced by a map diffusion module that improves both the stability and expressiveness of online HD map representations. We validate our framework on two downstream tasks: trajectory prediction and planning-oriented end-to-end autonomous driving. Experiments on real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate improved performance over several state-of-the-art methods. For the prediction task on nuScenes, we integrate DiffSemanticFusion with the online HD map informed QCNet, achieving a 5.1\% performance improvement. For end-to-end autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art results, with a 15\% performance gain in NavHard scenarios. In addition, extensive ablation and sensitivity studies show that our map diffusion module can be seamlessly integrated into other vector-based approaches to enhance performance. All artifacts are available at https://github.com/SunZhigang7/DiffSemanticFusion.

DiffSemanticFusion: Fusione Semantica Raster BEV per la Guida Autonoma tramite Diffusione Online di Mappe HD

DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion

Abstract

Support