Дорога впереди в автономном вождении: мультимодальный набор данных KITScenes

Аннотация

Существующие наборы данных для автономного вождения позволили добиться значительного прогресса, однако не обеспечивают достаточной точности сенсоров, полноты карт или географического разнообразия. Мы представляем KITScenes Multimodal — европейский набор данных, построенный на основе высокоточных сенсоров и карт. Наш полностью синхронизированный набор сенсоров объединяет камеры с глобальным затвором высокого разрешения, лидар дальнего действия (свыше 400 м), 4D-радар визуализации и избыточную систему GNSS/INS для локализации. Наши карты высокой детализации (HD-карты), насколько нам известно, являются наиболее полными среди всех наборов сенсорных данных, что подтверждено испытаниями автономного вождения на программном обеспечении с открытым исходным кодом. Впервые в общедоступном наборе данных все дорожные элементы, значимые для вождения, такие как светофоры, отображены в трёхмерном виде с точностью, достаточной для обратного проецирования, и с полной топологической связностью. Записанные в городах с нерегулярной уличной планировкой и смешанными транспортными потоками, наши данные дополняют существующие наборы, расширяя доступное географическое разнообразие. Мы также вводим четыре эталонных теста, каждый из которых развивает пространственное обучение для воплощённого ИИ: построение HD-карт в реальном времени, оценка глубины на больших расстояниях, синтез новых видов и сквозное вождение. Страница проекта: https://kitscenes.com/

English

Existing autonomous driving datasets have enabled major progress, but fall short in sensor fidelity, map completeness, or geographic diversity. We present KITScenes Multimodal, a European dataset built around high-fidelity sensors and maps. Our fully synchronized sensor suite combines high-resolution global-shutter cameras, long-range lidar beyond 400m, 4D imaging radar, and redundant GNSS/INS localization. Our HD maps are, to our knowledge, the most complete of any sensor dataset, validated through autonomous driving trials on open-source software. For the first time in a public dataset, all driving-relevant traffic elements, such as traffic lights, are mapped in 3D to a reprojection-accurate level with full topological connectivity. Recorded in cities with irregular street layouts and mixed traffic modes, our dataset complements existing datasets by broadening the available geographic diversity. We also introduce four benchmarks, each advancing spatial learning for embodied AI: online HD map construction, long-range depth estimation, novel view synthesis, and end-to-end driving. Project page: https://kitscenes.com/