El futuro de la conducción autónoma: el conjunto de datos multimodal KITScenes

Resumen

Los conjuntos de datos existentes para conducción autónoma han permitido avances significativos, pero presentan limitaciones en cuanto a fidelidad de sensores, completitud de mapas o diversidad geográfica. Presentamos KITScenes Multimodal, un conjunto de datos europeo construido en torno a sensores y mapas de alta fidelidad. Nuestra suite de sensores completamente sincronizada combina cámaras de obturador global de alta resolución, LiDAR de largo alcance superior a 400 m, radar de imágenes 4D y localización GNSS/INS redundante. Hasta donde sabemos, nuestros mapas de alta definición son los más completos de cualquier conjunto de datos de sensores, validados mediante pruebas de conducción autónoma con software de código abierto. Por primera vez en un conjunto de datos público, todos los elementos de tráfico relevantes para la conducción, como los semáforos, se cartografían en 3D con un nivel de precisión de reproyección y conectividad topológica completa. Grabado en ciudades con trazados de calles irregulares y modos de tráfico mixtos, nuestro conjunto de datos complementa los existentes al ampliar la diversidad geográfica disponible. También presentamos cuatro puntos de referencia que avanzan el aprendizaje espacial para la inteligencia artificial encarnada: construcción de mapas HD en línea, estimación de profundidad de largo alcance, síntesis de nuevas vistas y conducción de extremo a extremo. Página del proyecto: https://kitscenes.com/

English

Existing autonomous driving datasets have enabled major progress, but fall short in sensor fidelity, map completeness, or geographic diversity. We present KITScenes Multimodal, a European dataset built around high-fidelity sensors and maps. Our fully synchronized sensor suite combines high-resolution global-shutter cameras, long-range lidar beyond 400m, 4D imaging radar, and redundant GNSS/INS localization. Our HD maps are, to our knowledge, the most complete of any sensor dataset, validated through autonomous driving trials on open-source software. For the first time in a public dataset, all driving-relevant traffic elements, such as traffic lights, are mapped in 3D to a reprojection-accurate level with full topological connectivity. Recorded in cities with irregular street layouts and mixed traffic modes, our dataset complements existing datasets by broadening the available geographic diversity. We also introduce four benchmarks, each advancing spatial learning for embodied AI: online HD map construction, long-range depth estimation, novel view synthesis, and end-to-end driving. Project page: https://kitscenes.com/