DiffSemanticFusion : Fusion sémantique raster BEV pour la conduite autonome via la diffusion en ligne de cartes HD
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
August 3, 2025
papers.authors: Zhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun
cs.AI
papers.abstract
La conduite autonome nécessite une compréhension précise de la scène, incluant la géométrie de la route, les agents de circulation et leurs relations sémantiques. Dans les scénarios de génération de cartes HD en temps réel, les représentations basées sur des rasters sont bien adaptées aux modèles de vision mais manquent de précision géométrique, tandis que les représentations basées sur des graphes conservent les détails structurels mais deviennent instables sans cartes précises. Pour exploiter les forces complémentaires des deux approches, nous proposons DiffSemanticFusion — un cadre de fusion pour la prédiction de trajectoires multimodales et la planification. Notre méthode raisonne sur un espace BEV fusionné sémantiquement avec des rasters, enrichi par un module de diffusion de carte qui améliore à la fois la stabilité et l'expressivité des représentations de cartes HD en temps réel. Nous validons notre cadre sur deux tâches en aval : la prédiction de trajectoires et la conduite autonome de bout en bout orientée planification. Les expériences sur les benchmarks de conduite autonome du monde réel, nuScenes et NAVSIM, démontrent une amélioration des performances par rapport à plusieurs méthodes de pointe. Pour la tâche de prédiction sur nuScenes, nous intégrons DiffSemanticFusion avec QCNet informé par la carte HD en temps réel, obtenant une amélioration de performance de 5,1 %. Pour la conduite autonome de bout en bout dans NAVSIM, DiffSemanticFusion atteint des résultats de pointe, avec un gain de performance de 15 % dans les scénarios NavHard. De plus, des études approfondies d'ablation et de sensibilité montrent que notre module de diffusion de carte peut être intégré de manière transparente dans d'autres approches basées sur des vecteurs pour améliorer les performances. Tous les artefacts sont disponibles à l'adresse https://github.com/SunZhigang7/DiffSemanticFusion.
English
Autonomous driving requires accurate scene understanding, including road
geometry, traffic agents, and their semantic relationships. In online HD map
generation scenarios, raster-based representations are well-suited to vision
models but lack geometric precision, while graph-based representations retain
structural detail but become unstable without precise maps. To harness the
complementary strengths of both, we propose DiffSemanticFusion -- a fusion
framework for multimodal trajectory prediction and planning. Our approach
reasons over a semantic raster-fused BEV space, enhanced by a map diffusion
module that improves both the stability and expressiveness of online HD map
representations. We validate our framework on two downstream tasks: trajectory
prediction and planning-oriented end-to-end autonomous driving. Experiments on
real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate
improved performance over several state-of-the-art methods. For the prediction
task on nuScenes, we integrate DiffSemanticFusion with the online HD map
informed QCNet, achieving a 5.1\% performance improvement. For end-to-end
autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art
results, with a 15\% performance gain in NavHard scenarios. In addition,
extensive ablation and sensitivity studies show that our map diffusion module
can be seamlessly integrated into other vector-based approaches to enhance
performance. All artifacts are available at
https://github.com/SunZhigang7/DiffSemanticFusion.