DiffSemanticFusion: Semantische Raster-BEV-Fusion für autonomes Fahren durch Online-HD-Kartendiffusion
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
August 3, 2025
papers.authors: Zhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun
cs.AI
papers.abstract
Autonomes Fahren erfordert ein präzises Verständnis der Szene, einschließlich der Straßengeometrie, der Verkehrsteilnehmer und ihrer semantischen Beziehungen. In Szenarien zur Online-Generierung von HD-Karten eignen sich rasterbasierte Darstellungen gut für Vision-Modelle, weisen jedoch eine mangelnde geometrische Präzision auf, während graphenbasierte Darstellungen strukturelle Details bewahren, jedoch ohne präzise Karten instabil werden. Um die komplementären Stärken beider Ansätze zu nutzen, schlagen wir DiffSemanticFusion vor – ein Fusionsframework für multimodale Trajektorienvorhersage und Planung. Unser Ansatz arbeitet in einem semantischen, rasterfusionierten BEV-Raum, der durch ein Karten-Diffusionsmodul erweitert wird, das sowohl die Stabilität als auch die Ausdrucksfähigkeit von Online-HD-Kartendarstellungen verbessert. Wir validieren unser Framework anhand von zwei nachgelagerten Aufgaben: Trajektorienvorhersage und end-to-end autonomes Fahren mit Planungsorientierung. Experimente auf realen Benchmark-Datensätzen für autonomes Fahren, nuScenes und NAVSIM, zeigen eine verbesserte Leistung gegenüber mehreren state-of-the-art Methoden. Für die Vorhersageaufgabe auf nuScenes integrieren wir DiffSemanticFusion mit dem Online-HD-Karten-informierten QCNet und erzielen eine Leistungssteigerung von 5,1 %. Für end-to-end autonomes Fahren in NAVSIM erreicht DiffSemanticFusion state-of-the-art Ergebnisse mit einer Leistungssteigerung von 15 % in NavHard-Szenarien. Darüber hinaus zeigen umfangreiche Ablations- und Sensitivitätsstudien, dass unser Karten-Diffusionsmodul nahtlos in andere vektorbasierte Ansätze integriert werden kann, um deren Leistung zu verbessern. Alle Artefakte sind verfügbar unter https://github.com/SunZhigang7/DiffSemanticFusion.
English
Autonomous driving requires accurate scene understanding, including road
geometry, traffic agents, and their semantic relationships. In online HD map
generation scenarios, raster-based representations are well-suited to vision
models but lack geometric precision, while graph-based representations retain
structural detail but become unstable without precise maps. To harness the
complementary strengths of both, we propose DiffSemanticFusion -- a fusion
framework for multimodal trajectory prediction and planning. Our approach
reasons over a semantic raster-fused BEV space, enhanced by a map diffusion
module that improves both the stability and expressiveness of online HD map
representations. We validate our framework on two downstream tasks: trajectory
prediction and planning-oriented end-to-end autonomous driving. Experiments on
real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate
improved performance over several state-of-the-art methods. For the prediction
task on nuScenes, we integrate DiffSemanticFusion with the online HD map
informed QCNet, achieving a 5.1\% performance improvement. For end-to-end
autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art
results, with a 15\% performance gain in NavHard scenarios. In addition,
extensive ablation and sensitivity studies show that our map diffusion module
can be seamlessly integrated into other vector-based approaches to enhance
performance. All artifacts are available at
https://github.com/SunZhigang7/DiffSemanticFusion.