La voie à suivre dans la conduite autonome : l'ensemble de données multimodal KITScenes

Résumé

Les ensembles de données existants pour la conduite autonome ont permis des progrès majeurs, mais ils présentent des lacunes en termes de fidélité des capteurs, d'exhaustivité des cartes ou de diversité géographique. Nous présentons KITScenes Multimodal, un ensemble de données européen construit autour de capteurs et de cartes haute fidélité. Notre suite de capteurs entièrement synchronisée combine des caméras global-shutter à haute résolution, un lidar longue portée dépassant 400 m, un radar d'imagerie 4D, et une localisation GNSS/INS redondante. Nos cartes haute définition (HD) sont, à notre connaissance, les plus complètes de tout ensemble de données de capteurs, validées par des essais de conduite autonome sur des logiciels open source. Pour la première fois dans un ensemble de données public, tous les éléments de circulation pertinents pour la conduite, tels que les feux de signalisation, sont cartographiés en 3D avec un niveau de précision de reprojection et une connectivité topologique complète. Enregistré dans des villes présentant des configurations de rues irrégulières et des modes de trafic mixtes, notre ensemble de données vient compléter les ensembles existants en élargissant la diversité géographique disponible. Nous introduisons également quatre benchmarks, chacun faisant progresser l'apprentissage spatial pour l'IA incarnée : la construction de cartes HD en ligne, l'estimation de profondeur à longue portée, la synthèse de nouvelles vues, et la conduite de bout en bout. Page du projet : https://kitscenes.com/

English

Existing autonomous driving datasets have enabled major progress, but fall short in sensor fidelity, map completeness, or geographic diversity. We present KITScenes Multimodal, a European dataset built around high-fidelity sensors and maps. Our fully synchronized sensor suite combines high-resolution global-shutter cameras, long-range lidar beyond 400m, 4D imaging radar, and redundant GNSS/INS localization. Our HD maps are, to our knowledge, the most complete of any sensor dataset, validated through autonomous driving trials on open-source software. For the first time in a public dataset, all driving-relevant traffic elements, such as traffic lights, are mapped in 3D to a reprojection-accurate level with full topological connectivity. Recorded in cities with irregular street layouts and mixed traffic modes, our dataset complements existing datasets by broadening the available geographic diversity. We also introduce four benchmarks, each advancing spatial learning for embodied AI: online HD map construction, long-range depth estimation, novel view synthesis, and end-to-end driving. Project page: https://kitscenes.com/