O Caminho à Frente na Condução Autônoma: O Conjunto de Dados Multimodal KITScenes

Resumo

Os conjuntos de dados existentes para condução autônoma possibilitaram avanços significativos, mas são insuficientes em termos de fidelidade dos sensores, completude dos mapas ou diversidade geográfica. Apresentamos o KITScenes Multimodal, um conjunto de dados europeu construído com sensores e mapas de alta fidelidade. Nosso conjunto de sensores totalmente sincronizado combina câmeras de alto alcance dinâmico com obturador global, lidar de longo alcance superior a 400m, radar de imagem 4D e localização GNSS/INS redundante. Nossos mapas HD são, até onde sabemos, os mais completos de qualquer conjunto de dados de sensores, validados por meio de testes de condução autônoma em software de código aberto. Pela primeira vez em um conjunto de dados público, todos os elementos de tráfego relevantes para a condução, como semáforos, são mapeados em 3D com um nível de precisão de reprojeção e conectividade topológica total. Gravado em cidades com layouts viários irregulares e modos de tráfego mistos, nosso conjunto de dados complementa os existentes ao ampliar a diversidade geográfica disponível. Também introduzimos quatro benchmarks, cada um avançando o aprendizado espacial para IA incorporada: construção de mapas HD online, estimativa de profundidade de longo alcance, síntese de novas vistas e condução de ponta a ponta. Página do projeto: https://kitscenes.com/

English

Existing autonomous driving datasets have enabled major progress, but fall short in sensor fidelity, map completeness, or geographic diversity. We present KITScenes Multimodal, a European dataset built around high-fidelity sensors and maps. Our fully synchronized sensor suite combines high-resolution global-shutter cameras, long-range lidar beyond 400m, 4D imaging radar, and redundant GNSS/INS localization. Our HD maps are, to our knowledge, the most complete of any sensor dataset, validated through autonomous driving trials on open-source software. For the first time in a public dataset, all driving-relevant traffic elements, such as traffic lights, are mapped in 3D to a reprojection-accurate level with full topological connectivity. Recorded in cities with irregular street layouts and mixed traffic modes, our dataset complements existing datasets by broadening the available geographic diversity. We also introduce four benchmarks, each advancing spatial learning for embodied AI: online HD map construction, long-range depth estimation, novel view synthesis, and end-to-end driving. Project page: https://kitscenes.com/