ChatPaper.aiChatPaper

Scénarios de Conduite en Queue de Distribution avec Traces de Raisonnement : Le Jeu de Données KITScenes LongTail

LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

March 24, 2026
Auteurs: Royden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller
cs.AI

Résumé

Dans des domaines réels comme la conduite autonome, la généralisation à des scénarios rares reste un défi fondamental. Pour y remédier, nous présentons un nouveau jeu de données conçu pour la conduite de bout en bout, centré sur les événements de conduite à longue traîne. Nous fournissons des données vidéo multi-vues, des trajectoires, des instructions de haut niveau et des traces de raisonnement détaillées, facilitant l'apprentissage en contexte et la généralisation en few-shot. Le benchmark qui en résulte pour les modèles multimodaux, tels que les VLM et VLA, va au-delà des métriques de sécurité et de confort en évaluant le suivi des instructions et la cohérence sémantique entre les sorties des modèles. Les traces de raisonnement multilingues en anglais, espagnol et chinois proviennent d'experts du domaine ayant des origines culturelles diverses. Ainsi, notre jeu de données constitue une ressource unique pour étudier comment différentes formes de raisonnement affectent la compétence de conduite. Notre jeu de données est disponible à l'adresse : https://hf.co/datasets/kit-mrt/kitscenes-longtail.
English
In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail
PDF122March 31, 2026