Lange-Staart Rijscenario's met Redeneersporen: De KITScenes Lange-Staart Dataset
LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset
March 24, 2026
Auteurs: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller
cs.AI
Samenvatting
In real-world domeinen zoals zelfrijdende auto's blijft generalisatie naar zeldzame scenario's een fundamentele uitdaging. Om dit aan te pakken, introduceren we een nieuwe dataset die is ontworpen voor end-to-end rijden en zich richt op long-tail rijsituaties. Wij bieden multi-view videodata, trajecten, hoogwaardige instructies en gedetailleerde redeneersporen, wat in-context leren en few-shot generalisatie vergemakkelijkt. De resulterende benchmark voor multimodale modellen, zoals VLM's en VLA's, gaat verder dan veiligheids- en comfortmetingen door het opvolgen van instructies en semantische samenhang tussen modeloutputs te evalueren. De meertalige redeneersporen in het Engels, Spaans en Chinees zijn afkomstig van domeinexperts met uiteenlopende culturele achtergronden. Onze dataset is daarmee een unieke bron voor het bestuderen van hoe verschillende vormen van redeneren de rijvaardigheid beïnvloeden. Onze dataset is beschikbaar op: https://hf.co/datasets/kit-mrt/kitscenes-longtail
English
In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail