DiffSemanticFusion: Fusión Semántica de Raster BEV para la Conducción Autónoma mediante Difusión de Mapas HD en Tiempo Real
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
August 3, 2025
Autores: Zhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun
cs.AI
Resumen
La conducción autónoma requiere una comprensión precisa de la escena, incluyendo la geometría de la carretera, los agentes de tráfico y sus relaciones semánticas. En escenarios de generación de mapas HD en línea, las representaciones basadas en ráster son adecuadas para modelos de visión pero carecen de precisión geométrica, mientras que las representaciones basadas en grafos conservan detalles estructurales pero se vuelven inestables sin mapas precisos. Para aprovechar las fortalezas complementarias de ambas, proponemos DiffSemanticFusion, un marco de fusión para la predicción y planificación multimodal de trayectorias. Nuestro enfoque razona sobre un espacio BEV fusionado con ráster semántico, mejorado por un módulo de difusión de mapas que aumenta tanto la estabilidad como la expresividad de las representaciones de mapas HD en línea. Validamos nuestro marco en dos tareas posteriores: predicción de trayectorias y conducción autónoma de extremo a extremo orientada a la planificación. Los experimentos en los puntos de referencia de conducción autónoma del mundo real, nuScenes y NAVSIM, demuestran un rendimiento mejorado en comparación con varios métodos de vanguardia. Para la tarea de predicción en nuScenes, integramos DiffSemanticFusion con QCNet informado por el mapa HD en línea, logrando una mejora del 5.1\% en el rendimiento. Para la conducción autónoma de extremo a extremo en NAVSIM, DiffSemanticFusion alcanza resultados de vanguardia, con una mejora del 15\% en escenarios NavHard. Además, extensos estudios de ablación y sensibilidad muestran que nuestro módulo de difusión de mapas puede integrarse sin problemas en otros enfoques basados en vectores para mejorar el rendimiento. Todos los artefactos están disponibles en https://github.com/SunZhigang7/DiffSemanticFusion.
English
Autonomous driving requires accurate scene understanding, including road
geometry, traffic agents, and their semantic relationships. In online HD map
generation scenarios, raster-based representations are well-suited to vision
models but lack geometric precision, while graph-based representations retain
structural detail but become unstable without precise maps. To harness the
complementary strengths of both, we propose DiffSemanticFusion -- a fusion
framework for multimodal trajectory prediction and planning. Our approach
reasons over a semantic raster-fused BEV space, enhanced by a map diffusion
module that improves both the stability and expressiveness of online HD map
representations. We validate our framework on two downstream tasks: trajectory
prediction and planning-oriented end-to-end autonomous driving. Experiments on
real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate
improved performance over several state-of-the-art methods. For the prediction
task on nuScenes, we integrate DiffSemanticFusion with the online HD map
informed QCNet, achieving a 5.1\% performance improvement. For end-to-end
autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art
results, with a 15\% performance gain in NavHard scenarios. In addition,
extensive ablation and sensitivity studies show that our map diffusion module
can be seamlessly integrated into other vector-based approaches to enhance
performance. All artifacts are available at
https://github.com/SunZhigang7/DiffSemanticFusion.