DiffSemanticFusion : Fusion sémantique raster BEV pour la conduite autonome via la diffusion en ligne de cartes HD

papers.abstract

La conduite autonome nécessite une compréhension précise de la scène, incluant la géométrie de la route, les agents de circulation et leurs relations sémantiques. Dans les scénarios de génération de cartes HD en temps réel, les représentations basées sur des rasters sont bien adaptées aux modèles de vision mais manquent de précision géométrique, tandis que les représentations basées sur des graphes conservent les détails structurels mais deviennent instables sans cartes précises. Pour exploiter les forces complémentaires des deux approches, nous proposons DiffSemanticFusion — un cadre de fusion pour la prédiction de trajectoires multimodales et la planification. Notre méthode raisonne sur un espace BEV fusionné sémantiquement avec des rasters, enrichi par un module de diffusion de carte qui améliore à la fois la stabilité et l'expressivité des représentations de cartes HD en temps réel. Nous validons notre cadre sur deux tâches en aval : la prédiction de trajectoires et la conduite autonome de bout en bout orientée planification. Les expériences sur les benchmarks de conduite autonome du monde réel, nuScenes et NAVSIM, démontrent une amélioration des performances par rapport à plusieurs méthodes de pointe. Pour la tâche de prédiction sur nuScenes, nous intégrons DiffSemanticFusion avec QCNet informé par la carte HD en temps réel, obtenant une amélioration de performance de 5,1 %. Pour la conduite autonome de bout en bout dans NAVSIM, DiffSemanticFusion atteint des résultats de pointe, avec un gain de performance de 15 % dans les scénarios NavHard. De plus, des études approfondies d'ablation et de sensibilité montrent que notre module de diffusion de carte peut être intégré de manière transparente dans d'autres approches basées sur des vecteurs pour améliorer les performances. Tous les artefacts sont disponibles à l'adresse https://github.com/SunZhigang7/DiffSemanticFusion.

English

Autonomous driving requires accurate scene understanding, including road geometry, traffic agents, and their semantic relationships. In online HD map generation scenarios, raster-based representations are well-suited to vision models but lack geometric precision, while graph-based representations retain structural detail but become unstable without precise maps. To harness the complementary strengths of both, we propose DiffSemanticFusion -- a fusion framework for multimodal trajectory prediction and planning. Our approach reasons over a semantic raster-fused BEV space, enhanced by a map diffusion module that improves both the stability and expressiveness of online HD map representations. We validate our framework on two downstream tasks: trajectory prediction and planning-oriented end-to-end autonomous driving. Experiments on real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate improved performance over several state-of-the-art methods. For the prediction task on nuScenes, we integrate DiffSemanticFusion with the online HD map informed QCNet, achieving a 5.1\% performance improvement. For end-to-end autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art results, with a 15\% performance gain in NavHard scenarios. In addition, extensive ablation and sensitivity studies show that our map diffusion module can be seamlessly integrated into other vector-based approaches to enhance performance. All artifacts are available at https://github.com/SunZhigang7/DiffSemanticFusion.

DiffSemanticFusion : Fusion sémantique raster BEV pour la conduite autonome via la diffusion en ligne de cartes HD

DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion

papers.abstract

Support