DiffSemanticFusion: Fusão Semântica Raster BEV para Condução Autônoma via Difusão de Mapas HD Online
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion
August 3, 2025
Autores: Zhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun
cs.AI
Resumo
A condução autônoma requer uma compreensão precisa da cena, incluindo a geometria da via, os agentes de tráfego e suas relações semânticas. Em cenários de geração de mapas HD online, as representações baseadas em raster são bem adequadas para modelos de visão, mas carecem de precisão geométrica, enquanto as representações baseadas em grafos retêm detalhes estruturais, mas tornam-se instáveis sem mapas precisos. Para aproveitar os pontos fortes complementares de ambas, propomos o DiffSemanticFusion — um framework de fusão para previsão e planejamento de trajetórias multimodais. Nossa abordagem raciocina sobre um espaço BEV fundido com raster semântico, aprimorado por um módulo de difusão de mapas que melhora tanto a estabilidade quanto a expressividade das representações de mapas HD online. Validamos nosso framework em duas tarefas subsequentes: previsão de trajetória e condução autônoma de ponta a ponta orientada para planejamento. Experimentos em benchmarks de condução autônoma do mundo real, nuScenes e NAVSIM, demonstram um desempenho superior em relação a vários métodos state-of-the-art. Para a tarefa de previsão no nuScenes, integramos o DiffSemanticFusion com o QCNet informado pelo mapa HD online, alcançando uma melhoria de desempenho de 5,1%. Para a condução autônoma de ponta a ponta no NAVSIM, o DiffSemanticFusion alcança resultados state-of-the-art, com um ganho de desempenho de 15% em cenários NavHard. Além disso, extensos estudos de ablação e sensibilidade mostram que nosso módulo de difusão de mapas pode ser integrado de forma contínua em outras abordagens baseadas em vetores para melhorar o desempenho. Todos os artefatos estão disponíveis em https://github.com/SunZhigang7/DiffSemanticFusion.
English
Autonomous driving requires accurate scene understanding, including road
geometry, traffic agents, and their semantic relationships. In online HD map
generation scenarios, raster-based representations are well-suited to vision
models but lack geometric precision, while graph-based representations retain
structural detail but become unstable without precise maps. To harness the
complementary strengths of both, we propose DiffSemanticFusion -- a fusion
framework for multimodal trajectory prediction and planning. Our approach
reasons over a semantic raster-fused BEV space, enhanced by a map diffusion
module that improves both the stability and expressiveness of online HD map
representations. We validate our framework on two downstream tasks: trajectory
prediction and planning-oriented end-to-end autonomous driving. Experiments on
real-world autonomous driving benchmarks, nuScenes and NAVSIM, demonstrate
improved performance over several state-of-the-art methods. For the prediction
task on nuScenes, we integrate DiffSemanticFusion with the online HD map
informed QCNet, achieving a 5.1\% performance improvement. For end-to-end
autonomous driving in NAVSIM, DiffSemanticFusion achieves state-of-the-art
results, with a 15\% performance gain in NavHard scenarios. In addition,
extensive ablation and sensitivity studies show that our map diffusion module
can be seamlessly integrated into other vector-based approaches to enhance
performance. All artifacts are available at
https://github.com/SunZhigang7/DiffSemanticFusion.