Scenari di Guida a Coda Lunga con Tracce di Ragionamento: Il Dataset KITScenes LongTail
LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset
March 24, 2026
Autori: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller
cs.AI
Abstract
In domini reali come la guida autonoma, la generalizzazione a scenari rari rimane una sfida fondamentale. Per affrontare questo problema, introduciamo un nuovo dataset progettato per la guida end-to-end che si concentra su eventi di guida a coda lunga. Forniamo dati video multi-prospettici, traiettorie, istruzioni di alto livello e tracce di ragionamento dettagliate, facilitando l'apprendimento contestuale e la generalizzazione few-shot. Il benchmark risultante per modelli multimodali, come VLM e VLA, va oltre le metriche di sicurezza e comfort valutando l'aderenza alle istruzioni e la coerenza semantica tra le uscite del modello. Le tracce di ragionamento multilingue in inglese, spagnolo e cinese provengono da esperti di dominio con background culturali diversificati. Pertanto, il nostro dataset rappresenta una risorsa unica per studiare come diverse forme di ragionamento influenzino la competenza di guida. Il nostro dataset è disponibile all'indirizzo: https://hf.co/datasets/kit-mrt/kitscenes-longtail
English
In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail