Der Weg in die Zukunft des autonomen Fahrens: Der multimodale Datensatz KITScenes

Zusammenfassung

Bestehende Datensätze für autonomes Fahren haben bedeutende Fortschritte ermöglicht, weisen jedoch Defizite in der Sensorpräzision, Kartenvollständigkeit oder geografischen Vielfalt auf. Wir stellen KITScenes Multimodal vor, einen europäischen Datensatz, der auf hochpräzisen Sensoren und Karten basiert. Unsere vollständig synchronisierte Sensoranordnung kombiniert hochauflösende Global-Shutter-Kameras, Reichweiten-Lidar über 400 m, 4D-Bildgebungsradar und redundante GNSS/INS-Lokalisierung. Unsere HD-Karten sind nach unserem Kenntnisstand die vollständigsten aller Sensordatensätze und wurden durch Versuche zum autonomen Fahren mit Open-Source-Software validiert. Zum ersten Mal in einem öffentlichen Datensatz sind alle fahrrelevanten Verkehrselemente, wie Ampeln, in 3D auf reprojektionsgenauem Niveau mit vollständiger topologischer Konnektivität kartiert. Aufgenommen in Städten mit unregelmäßigen Straßengrundrissen und gemischten Verkehrsmodi, ergänzt unser Datensatz bestehende Datensätze, indem er die verfügbare geografische Vielfalt erweitert. Wir führen außerdem vier Benchmark-Aufgaben ein, die jeweils das räumliche Lernen für verkörperte KI voranbringen: Online-HD-Kartenkonstruktion, Tiefenschätzung großer Reichweite, neuartige Ansichtssynthese und End-to-End-Fahren. Projektseite: https://kitscenes.com/

English

Existing autonomous driving datasets have enabled major progress, but fall short in sensor fidelity, map completeness, or geographic diversity. We present KITScenes Multimodal, a European dataset built around high-fidelity sensors and maps. Our fully synchronized sensor suite combines high-resolution global-shutter cameras, long-range lidar beyond 400m, 4D imaging radar, and redundant GNSS/INS localization. Our HD maps are, to our knowledge, the most complete of any sensor dataset, validated through autonomous driving trials on open-source software. For the first time in a public dataset, all driving-relevant traffic elements, such as traffic lights, are mapped in 3D to a reprojection-accurate level with full topological connectivity. Recorded in cities with irregular street layouts and mixed traffic modes, our dataset complements existing datasets by broadening the available geographic diversity. We also introduce four benchmarks, each advancing spatial learning for embodied AI: online HD map construction, long-range depth estimation, novel view synthesis, and end-to-end driving. Project page: https://kitscenes.com/